Safe-Child-LLM:兒童語言模型安全評估基準
arXiv - Computers and SocietyJunfeng Jiao, Saleh Afroogh, Kevin Chen, Abhejay Murali, David Atkinson, Amit Dhurandhar
建立兒童與青少年語言模型安全評估基準,發現多款主流LLM在兒童場景下存在安全缺陷。
AI 幫你先抓重點
AI 重點 1
兒童安全基準揭示主流LLM易被利用,凸顯安全設計缺失。
滑鼠懸停看 AI 判斷理由
此洞察顯示即使是領先模型亦易被兒童利用,提醒開發者必須在安全設計中加入針對兒童的機制,從成人中心的安全觀點轉向兒童特定風險。
AI 重點 2
多樣化對抗性提示與倫理拒絕尺度提供可量化評估,促進跨模型比較與改進。
滑鼠懸停看 AI 判斷理由
標準化的評分尺度使得不同模型之間的安全表現可客觀比較,為迭代改進提供具體數據指標,進而提升整體AI安全水平。
核心研究發現
- 1
提供200條針對7-12歲兒童與13-17歲青少年的對抗性提示,並以人類標註的破解成功與0-5倫理拒絕等級進行評分。
- 2
評估ChatGPT、Claude、Gemini、LLaMA、DeepSeek、Grok、Vicuna、Mistral等主流LLM,發現多款模型在兒童場景下易被破解或拒絕不當內容。
- 3
研究顯示目前LLM在兒童與青少年互動中存在顯著安全缺陷,需社群驅動的基準來保護年輕使用者。
對教育工作者的啟發
教師可利用此基準設計安全篩檢流程;開發者應加入兒童倫理拒絕機制;政策制定者可參考指標制定使用規範;學校可透過模擬測試評估教學AI工具安全性,確保兒童使用環境的安全與合規。
原始文獻資訊
- 英文標題:
- Safe-Child-LLM: A Developmental Benchmark for Evaluating LLM Safety in Child-LLM Interactions
- 作者:
- Junfeng Jiao, Saleh Afroogh, Kevin Chen, Abhejay Murali, David Atkinson, Amit Dhurandhar
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。