Roblox 聊天安全審核評估
arXiv - Computers and SocietyPriya Kaushik, Sonja Brown, Rakibul Hasan, Sazzadur Rahaman
評估 Roblox 兒童聊天審核效能,發現多類不安全訊息逃逸並揭示使用者迴避策略
AI 幫你先抓重點
AI 重點 1
自動審核系統對於隱晦或多語言不安全訊息的漏判率高,需結合人工與 LLM 進行二階段篩選。
滑鼠懸停看 AI 判斷理由
兒童在遊戲中接觸此類內容的風險極高,單一機器審核易漏判,結合人工與 LLM 可提升準確度,降低潛在傷害。
AI 重點 2
使用者能透過簡短語句、代碼或圖像等技巧迴避審核,提示平台需更新規則與機器學習模型以捕捉新型攻擊。
滑鼠懸停看 AI 判斷理由
這顯示審核系統需具備動態學習與規則迭代能力,否則惡意使用者可持續利用漏洞,對兒童安全構成長期威脅。
核心研究發現
- 1
近 200k 手動標記,發現多數不安全訊息(包括誘導、性化、霸凌、暴力、自傷、敏感資訊)未被現行自動審核捕捉。
- 2
透過四種 LLM 評估,最佳模型能以高精度辨識不安全訊息,並在整個 200 萬訊息中篩選出大量潛在危險內容。
- 3
先前已被標記的使用者仍持續發送危險訊息,並運用多種技巧迴避審核系統。
對教育工作者的啟發
本研究指出 Roblox 目前的聊天審核系統在處理隱晦語句、多語言內容及使用者迴避技巧方面存在明顯漏洞。實務工作者可依此採取以下措施:1)建立多階段審核流程,先用 LLM 進行快速篩選,再由人工進行細部審核,提升準確度與效率。2)定期更新機器學習模型與審核規則,特別是針對新興的迴避手法(如代碼、圖像、縮寫)。3)對已被標記的使用者進行行為追蹤與再教育,防止其持續發送危險訊息。4)提供家長與教師的教育資源,協助他們辨識與回報潛在不安全內容。5)鼓勵跨平台合作,分享審核經驗與模型,形成更完整的兒童保護生態系。
原始文獻資訊
- 英文標題:
- An Evaluation of Chat Safety Moderations in Roblox
- 作者:
- Priya Kaushik, Sonja Brown, Rakibul Hasan, Sazzadur Rahaman
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。