Safe-Child-LLM：兒童語言模型安全評估基準

arXiv - Computers and SocietyJunfeng Jiao, Saleh Afroogh, Kevin Chen, Abhejay Murali, David Atkinson, Amit Dhurandhar2026年5月14日

建立兒童與青少年語言模型安全評估基準，發現多款主流LLM在兒童場景下存在安全缺陷。

AI 幫你先抓重點

AI 重點 1

兒童安全基準揭示主流LLM易被利用，凸顯安全設計缺失。

滑鼠懸停看 AI 判斷理由

此洞察顯示即使是領先模型亦易被兒童利用，提醒開發者必須在安全設計中加入針對兒童的機制，從成人中心的安全觀點轉向兒童特定風險。

AI 重點 2

多樣化對抗性提示與倫理拒絕尺度提供可量化評估，促進跨模型比較與改進。

滑鼠懸停看 AI 判斷理由

標準化的評分尺度使得不同模型之間的安全表現可客觀比較，為迭代改進提供具體數據指標，進而提升整體AI安全水平。

1
提供200條針對7-12歲兒童與13-17歲青少年的對抗性提示，並以人類標註的破解成功與0-5倫理拒絕等級進行評分。
2
評估ChatGPT、Claude、Gemini、LLaMA、DeepSeek、Grok、Vicuna、Mistral等主流LLM，發現多款模型在兒童場景下易被破解或拒絕不當內容。
3
研究顯示目前LLM在兒童與青少年互動中存在顯著安全缺陷，需社群驅動的基準來保護年輕使用者。

教師可利用此基準設計安全篩檢流程；開發者應加入兒童倫理拒絕機制；政策制定者可參考指標制定使用規範；學校可透過模擬測試評估教學AI工具安全性，確保兒童使用環境的安全與合規。

英文標題：: Safe-Child-LLM: A Developmental Benchmark for Evaluating LLM Safety in Child-LLM Interactions
作者：: Junfeng Jiao, Saleh Afroogh, Kevin Chen, Abhejay Murali, David Atkinson, Amit Dhurandhar
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。