edtech ai assessment learning design higher education

Roblox 聊天安全審核評估

arXiv - Computers and SocietyPriya Kaushik, Sonja Brown, Rakibul Hasan, Sazzadur Rahaman2026年5月7日

評估 Roblox 兒童聊天審核效能，發現多類不安全訊息逃逸並揭示使用者迴避策略

AI 幫你先抓重點

AI 重點 1

自動審核系統對於隱晦或多語言不安全訊息的漏判率高，需結合人工與 LLM 進行二階段篩選。

滑鼠懸停看 AI 判斷理由

兒童在遊戲中接觸此類內容的風險極高，單一機器審核易漏判，結合人工與 LLM 可提升準確度，降低潛在傷害。

AI 重點 2

使用者能透過簡短語句、代碼或圖像等技巧迴避審核，提示平台需更新規則與機器學習模型以捕捉新型攻擊。

滑鼠懸停看 AI 判斷理由

這顯示審核系統需具備動態學習與規則迭代能力，否則惡意使用者可持續利用漏洞，對兒童安全構成長期威脅。

核心研究發現

1
近 200k 手動標記，發現多數不安全訊息（包括誘導、性化、霸凌、暴力、自傷、敏感資訊）未被現行自動審核捕捉。
2
透過四種 LLM 評估，最佳模型能以高精度辨識不安全訊息，並在整個 200 萬訊息中篩選出大量潛在危險內容。
3
先前已被標記的使用者仍持續發送危險訊息，並運用多種技巧迴避審核系統。

對教育工作者的啟發

本研究指出 Roblox 目前的聊天審核系統在處理隱晦語句、多語言內容及使用者迴避技巧方面存在明顯漏洞。實務工作者可依此採取以下措施：1）建立多階段審核流程，先用 LLM 進行快速篩選，再由人工進行細部審核，提升準確度與效率。2）定期更新機器學習模型與審核規則，特別是針對新興的迴避手法（如代碼、圖像、縮寫）。3）對已被標記的使用者進行行為追蹤與再教育，防止其持續發送危險訊息。4）提供家長與教師的教育資源，協助他們辨識與回報潛在不安全內容。5）鼓勵跨平台合作，分享審核經驗與模型，形成更完整的兒童保護生態系。

原始文獻資訊

英文標題：: An Evaluation of Chat Safety Moderations in Roblox
作者：: Priya Kaushik, Sonja Brown, Rakibul Hasan, Sazzadur Rahaman
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。