SomaliBench Eval：衡量開源語言模型在英索語言間的拒絕回答差距

arXiv - Computers and SocietyKhalid Yusuf Dahir2026年5月26日

研究發現開源語言模型在索馬利亞語中的安全拒絕率遠低於英語，存在顯著的安全防護落差。

AI 幫你先抓重點

AI 重點 1

語言資源匱乏導致的「安全漏洞」並非僅是性能問題，而是安全防護的失效。

滑鼠懸停看 AI 判斷理由

這項發現提醒開發者，模型在低資源語言中的表現不佳不僅影響使用體驗，更可能導致有害內容在特定文化與語言環境中被無意識地釋放，造成社會安全風險。

AI 重點 2

模型在非英語環境下的「不穩定輸出」可能掩蓋了其潛在的合規性風險。

滑鼠懸停看 AI 判斷理由

當模型因語言能力不足而產生胡言亂語時，開發者可能誤以為模型已拒絕回答，但實際上模型並未建立起有效的安全防禦機制，這對於建立全球化的 AI 安全標準至關重要。

核心研究發現

1
四款開源模型（Llama-3.1, Gemma-2, Qwen-2.5, Aya-23）在索馬利亞語測試中均表現出顯著的拒絕率落差，其中 Llama-3.1 的差距最高達 0.90。
2
在索馬利亞語中，模型未能拒絕有害指令的主要原因並非流暢地配合違規要求，而是產生空值、錯誤語言或語意不連貫的輸出。
3
透過 Claude Sonnet 作為評分者，並經由母語作者抽樣驗證，研究證實了自動評分與人工判斷之間具有極高的一致性。

對教育工作者的啟發

對於開發全球化教育工具的實務者，應警惕「語言偏見」帶來的安全風險。在設計針對非英語母語者的 AI 學習助手時，不能僅依賴英語環境下的安全測試結果。建議在產品部署前，針對目標語言進行專門的安全壓力測試，特別是針對低資源語言，需確認模型在面對有害指令時，是真正理解並拒絕，而非僅因語言能力不足而產生無意義的輸出，以確保數位學習環境的安全性與公平性。

原始文獻資訊

英文標題：: SomaliBench Eval: Measuring English-to-Somali Refusal Gaps in Open-Weight Language Models
作者：: Khalid Yusuf Dahir
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。