超越仇恨:多模態內容審核中區分不文明與不容忍言論

arXiv - Computers and SocietyNils A. Herrmann, Tobias Eder, Jingyi He, Georg Groh

本研究提出精細化的標註方案,區分不文明的語氣與攻擊多元主義的內容,並提升內容審核系統的準確性與可靠性。

AI 幫你先抓重點

AI 重點 1

精細化標註方案的有效性

滑鼠懸停看 AI 判斷理由
此研究證明了更細緻的數據標註方法能顯著提升內容審核模型的效能,降低錯誤率,這對於構建更可靠的AI輔助審核系統至關重要,尤其是在處理複雜的網路言論時。
AI 重點 2

聯合學習策略的優勢

滑鼠懸停看 AI 判斷理由
結合粗略標籤與精細化標註的策略,能有效利用現有數據的優勢,同時彌補其不足,提升模型的泛化能力與準確性,為內容審核提供更全面的解決方案。

核心研究發現

  1. 1

    現有的多模態毒性基準通常使用單一的仇恨標籤,這忽略了表達中的兩種不同面向:語氣和內容。

  2. 2

    研究者引入了精細化的標註方案,將言論區分為不文明(粗魯或不屑的語氣)和不容忍(攻擊多元主義、針對群體或身份)兩種維度。

  3. 3

    透過在Hateful Memes資料集上標註2,030張迷因,研究發現精細化的標註能補充現有的粗略標籤,並提升模型效能。

  4. 4

    結合粗略標籤與精細化標註的聯合學習方法,能改善模型在內容審核方面的錯誤模式,降低對有害內容的漏檢率。

  5. 5

    研究結果顯示,使用精細化方案訓練的模型,在假陰性與假陽性率的差異上有所改善,例如LLaVA-1.6-Mistral-7B從0.74降至0.42。

對教育工作者的啟發

此研究強調了在內容審核中,精細化數據標註的重要性。教育科技平台或社群網站應考慮採用更細緻的標註方案,區分言論的語氣與內容,以更準確地識別和處理有害內容。此外,結合粗略標籤與精細化標註的聯合學習方法,能提升模型的效能,降低錯誤率,為使用者創造更安全的網路環境。在設計AI輔助審核系統時,應重視數據品質,並持續優化標註方案,以提升系統的可靠性與準確性。

原始文獻資訊

英文標題:
Beyond Hate: Differentiating Uncivil and Intolerant Speech in Multimodal Content Moderation
作者:
Nils A. Herrmann, Tobias Eder, Jingyi He, Georg Groh
來源:
arXiv - Computers and Society
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。