誰決定有害?多代理個人化推理框架的內容審核政策

arXiv - Computers and SocietyEwelina Gajewska, Michal Wawer, Katarzyna Budzynska, Jaroslaw A. Chudziak

提出基於多代理LLM的個人化內容審核框架,提升32%準確度,兼顧用戶敏感度與平台治理。

AI 幫你先抓重點

AI 重點 1

個人化審核可顯著提升用戶對內容的安全感與信任度。

滑鼠懸停看 AI 判斷理由
傳統集中式規則忽略個體差異,導致用戶感受不一致;本研究證明透過模擬用戶視角的代理,可更精準匹配個人敏感度,提升使用者滿意度與平台黏著度。
AI 重點 2

多代理架構為政策制定者提供可調節的審核參數,支持透明且可追蹤的決策流程。

滑鼠懸停看 AI 判斷理由
管理代理與專家代理的分工使審核過程可拆解,政策制定者可根據不同社群需求調整權重,確保審核符合多元價值觀,並提升治理透明度。

核心研究發現

  1. 1

    系統結合專家代理、管理代理與幽靈個人化代理,能根據用戶敏感度進行內容過濾。

  2. 2

    與非個人化基準相比,該框架在準確率上提升高達32%。

  3. 3

    架構提供可擴展的治理模式,協助平台在維護社會與個人數位權益間取得平衡。

對教育工作者的啟發

實務工作者可採用多代理個人化框架,先建立用戶敏感度資料庫,再透過Ghost Profile Agent模擬不同用戶視角,調整Expert Agent的判斷權重。此方式不僅提升審核準確度,亦能在政策制定時提供可追蹤的決策證據,協助平台在保護用戶安全與維護言論自由之間取得平衡。

原始文獻資訊

英文標題:
Who Decides What Is Harmful? Content Moderation Policy Through A Multi-Agent Personalised Inference Framework
作者:
Ewelina Gajewska, Michal Wawer, Katarzyna Budzynska, Jaroslaw A. Chudziak
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。