誰決定有害?多代理個人化推理框架的內容審核政策
arXiv - Computers and SocietyEwelina Gajewska, Michal Wawer, Katarzyna Budzynska, Jaroslaw A. Chudziak
提出基於多代理LLM的個人化內容審核框架,提升32%準確度,兼顧用戶敏感度與平台治理。
AI 幫你先抓重點
AI 重點 1
個人化審核可顯著提升用戶對內容的安全感與信任度。
滑鼠懸停看 AI 判斷理由
傳統集中式規則忽略個體差異,導致用戶感受不一致;本研究證明透過模擬用戶視角的代理,可更精準匹配個人敏感度,提升使用者滿意度與平台黏著度。
AI 重點 2
多代理架構為政策制定者提供可調節的審核參數,支持透明且可追蹤的決策流程。
滑鼠懸停看 AI 判斷理由
管理代理與專家代理的分工使審核過程可拆解,政策制定者可根據不同社群需求調整權重,確保審核符合多元價值觀,並提升治理透明度。
核心研究發現
- 1
系統結合專家代理、管理代理與幽靈個人化代理,能根據用戶敏感度進行內容過濾。
- 2
與非個人化基準相比,該框架在準確率上提升高達32%。
- 3
架構提供可擴展的治理模式,協助平台在維護社會與個人數位權益間取得平衡。
對教育工作者的啟發
實務工作者可採用多代理個人化框架,先建立用戶敏感度資料庫,再透過Ghost Profile Agent模擬不同用戶視角,調整Expert Agent的判斷權重。此方式不僅提升審核準確度,亦能在政策制定時提供可追蹤的決策證據,協助平台在保護用戶安全與維護言論自由之間取得平衡。
原始文獻資訊
- 英文標題:
- Who Decides What Is Harmful? Content Moderation Policy Through A Multi-Agent Personalised Inference Framework
- 作者:
- Ewelina Gajewska, Michal Wawer, Katarzyna Budzynska, Jaroslaw A. Chudziak
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。