ai edtech assessment safety mental health

AI 安全訓練可能導致臨床傷害：心理治療模型之風險分析

arXiv - Computers and SocietySuhas BN, Andrew M. Sherrill, Rosa I. Arriaga, Chris W. Wiese, Saeed Abdullah2026年4月28日

研究發現 AI 的安全對齊機制（RLHF）會干擾心理治療流程，導致治療有效性在面對高風險情境時大幅崩解。

AI 幫你先抓重點

AI 重點 1

安全對齊（Safety Alignment）與專業功能之間的衝突

滑鼠懸停看 AI 判斷理由

這挑戰了「更安全的 AI 即是更好的 AI」這一直覺。在特定專業領域（如心理治療），過度的安全過濾會破壞必要的治療挑戰機制，導致 AI 因「過度保護」而失去專業功能，這對開發專業領域 AI 時提供了關鍵警示。

AI 重點 2

建立多維度的 AI 醫療評估框架之必要性

滑鼠懸停看 AI 判斷理由

單純的對話流暢度不足以衡量專業 AI。研究提出的五軸評估框架（協定忠實度、幻覺風險、行為一致性、危機安全、人口統計穩健性）為未來 AI 進入高風險專業領域提供了標準化的審核路徑。

核心研究發現

1
在模擬心理治療情境中，模型雖能維持良好的表面回應，但在高嚴重度情境下的治療適當性卻從接近滿分驟降至 0.22-0.33。
2
研究發現 RLHF 安全對齊會干擾治療機制，例如在暴露療法中提供錯誤安撫，或在認知重構時因觸及自傷關鍵字而拒絕挑戰扭曲認知。
3
隨著情境嚴重度增加，模型的任務完成度與安全干擾分數顯著下降，部分模型在執行特定治療協定時的忠實度甚至降至零。
4
目前僅有 16% 的 LLM 心理健康干預經過嚴格臨床有效性測試，且模擬顯示超過三分之一的案例出現心理惡化風險。

對教育工作者的啟發

對於開發專業領域 AI（如教育輔導或心理支持）的設計者，應避免使用通用的安全對齊技術來處理專業任務。建議採取「領域特定（Domain-specific）」的安全訓練，確保安全機制不會干擾專業教學或治療的邏輯。此外，在設計 AI 輔助系統時，必須建立多維度的評估指標，而非僅關注對話的自然度，特別是在涉及高風險情緒支持或複雜認知訓練的情境下，應優先確保模型對專業協定的忠實度與行為一致性。

原始文獻資訊

英文標題：: AI Safety Training Can be Clinically Harmful
作者：: Suhas BN, Andrew M. Sherrill, Rosa I. Arriaga, Chris W. Wiese, Saeed Abdullah
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。