CHASM:揭露中國社群媒體隱蔽廣告
arXiv - Computers and SocietyJingyi Zheng, Tianyi Hu, Yule Liu, Zhen Sun, Zongmin Zhang, Zifan Peng, Wenhan Dong, Xinlei He
建立 CHASM 數據集,評估多模態 LLM 在偵測中國社群媒體隱蔽廣告之效能,發現現有模型不足且微調可提升。
AI 幫你先抓重點
AI 重點 1
現有多模態 LLM 在零樣本情境下對隱蔽廣告的檢測能力極低,凸顯模型偏見與資料缺口。
滑鼠懸停看 AI 判斷理由
此洞察揭示目前 AI 內容審核工具可能無法偵測或誤判隱蔽廣告,對消費者保護與平台信任造成重大風險,提醒研究者與實務工作者需重新評估模型訓練資料與偏差。
AI 重點 2
微調後模型雖提升,但仍難以捕捉評論中的微妙暗示與視覺與文字結構差異,提示需更細緻的多模態特徵學習。
滑鼠懸停看 AI 判斷理由
此洞察說明即使模型已經微調,仍缺乏對語境與視覺細節的深度理解,未來研究必須聚焦於更豐富的多模態表示與注意力機制,以提升偵測準確率。
核心研究發現
- 1
CHASM 數據集包含 4,992 個經手工標註、匿名化的實際案例,來源於中國社群媒體 Rednote,涵蓋大量偽裝成產品體驗分享的隱蔽廣告。
- 2
在零樣本與上下文學習設定下,現有多模態大型語言模型無法可靠偵測隱蔽廣告,準確率遠低於人類判斷。
- 3
對開源多模態模型進行微調後,性能有顯著提升,但仍難以捕捉評論中的微妙暗示與視覺與文字結構差異,顯示仍需更精細的特徵學習。
對教育工作者的啟發
本研究提供的 CHASM 數據集可作為開源多模態模型微調的基礎,建議平台審核團隊先行將模型部署於小規模測試,並結合人工審核以彌補模型誤判。為提升偵測精度,應加強對評論文字與圖像結構的多模態特徵提取,並探索語境感知的注意力機制。持續收集新型隱蔽廣告案例,建立動態更新機制,可有效降低平台被濫用的風險。
原始文獻資訊
- 英文標題:
- CHASM: Unveiling Covert Advertisements on Chinese Social Media
- 作者:
- Jingyi Zheng, Tianyi Hu, Yule Liu, Zhen Sun, Zongmin Zhang, Zifan Peng, Wenhan Dong, Xinlei He
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。