助益還是傷害:大型語言模型處理心理健康危機之評估

arXiv - Computers and SocietyAdrian Arnaiz-Rodriguez, Miguel Baidal, Erik Derner, Jenn Layton Annable, Mark Ball, Mark Ince, Elvira Perez Vallejos, Nuria Oliver

本研究建立危機分類法與評估協議,發現 LLM 在處理自殺與自殘等危機時仍存在不安全或不當回應的風險。

AI 幫你先抓重點

AI 重點 1

模型規模不等於安全性,對齊與安全實踐才是關鍵。

滑鼠懸停看 AI 判斷理由
這項發現挑戰了「模型越大越安全」的直覺。對於開發者而言,這意味著單純增加參數規模無法解決心理健康等高風險領域的倫理問題,必須投入更多針對性的安全對齊與臨床標準的訓練。
AI 重點 2

間接信號與上下文理解是目前 AI 應對危機的技術瓶頸。

滑鼠懸停看 AI 判斷理由
理解這點對於設計 AI 輔助工具至關重要。目前的 AI 仍難以捕捉隱晦的求救訊號,這提醒研究者在開發教育或心理輔助工具時,不能過度依賴 AI 的自動化判斷,必須建立更完善的人機協作機制。

核心研究發現

  1. 1

    研究建立了一個包含六大類別的臨床危機分類法,並從超過 23.9 萬條用戶輸入中篩選出 2,252 個相關範例作為數據集。

  2. 2

    五種模型在處理自殺與自殘類別時表現不佳,許多輸出被判定為不當或不安全,顯示模型在處理高風險情境時仍有風險。

  3. 3

    不同模型的安全性表現差異顯著,gpt-5-nano 與 deepseek-v3.2-exp 的傷害率較低,而 gpt-4o-mini 與 grok-4-fast 則產生較多不安全回應。

  4. 4

    所有測試模型在面對間接信號、預設回覆以及上下文不匹配(context misalignment)時,皆表現出處理困難。

對教育工作者的啟發

對於開發教育科技工具(如 AI 學習助手)的設計者而言,若產品涉及學生情緒支持或心理健康監測,絕對不能僅依賴通用型 LLM 的原生回應。建議採取以下策略:1. 建立明確的危機觸發機制,當偵測到潛在風險時,應立即切換至預設的安全應對流程或轉接真人專業人員;2. 引入臨床標準的評估框架來審核 AI 的輸出品質;3. 避免讓 AI 處理模糊的間接求救訊號,應設計更嚴謹的上下文檢測機制,以防止 AI 因誤判或理解錯誤而造成二次傷害。

原始文獻資訊

英文標題:
Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs
作者:
Adrian Arnaiz-Rodriguez, Miguel Baidal, Erik Derner, Jenn Layton Annable, Mark Ball, Mark Ince, Elvira Perez Vallejos, Nuria Oliver
來源:
arXiv - Computers and Society
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。