推特仇恨言論審查的執行與可行性

arXiv - Computers and SocietyManuel Tonneau, Dylan Thurgood, Diyi Liu, Niyati Malhotra, Victor Orozco-Olvera, Ralph Schroeder, Scott A. Hale, Manoel Horta Ribeiro, Paul R\"ottger, Samuel P. Fraiberger

全球審查推特仇恨言論顯示80%仍存,技術可行但資源配置決定成效

AI 幫你先抓重點

AI 重點 1

自動化審查雖不完美,但能以成本效益降低仇恨曝光

滑鼠懸停看 AI 判斷理由
此洞察顯示即使技術有限,結合人工審查仍能在經濟上可行,對平台資源分配策略具有實務指導意義,幫助決策者評估投入與效益
AI 重點 2

平台的資源配置決定仇恨言論持續存在,而非僅技術限制

滑鼠懸停看 AI 判斷理由
此觀點提醒決策者需重視人力與政策優先級,否則即使技術成熟仍無法有效治理,強調制度與人力佈局的重要性

核心研究發現

  1. 1

    80%仇恨推文在五個月後仍在線,暴力仇恨言論亦未被刪除

  2. 2

    仇恨推文的刪除機率與非仇恨推文相同,嚴重度與可見度不影響刪除

  3. 3

    自動檢測難以準確識別仇恨言論,易產生大量誤報;但能有效優先標記,人工-AI管道可在成本低於法規罰款的情況下顯著降低曝光

對教育工作者的啟發

平台可先投資於人機協同審查模型,設定自動優先級閾值,並定期評估刪除率;同時調整資源分配,將高可見度仇恨內容納入優先處理;教育工作者可利用此研究說明技術與政策共同決定網路安全。

原始文獻資訊

英文標題:
The Enforcement and Feasibility of Hate Speech Moderation on Twitter
作者:
Manuel Tonneau, Dylan Thurgood, Diyi Liu, Niyati Malhotra, Victor Orozco-Olvera, Ralph Schroeder, Scott A. Hale, Manoel Horta Ribeiro, Paul R\"ottger, Samuel P. Fraiberger
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。