AI 安全訓練可能導致臨床傷害:心理治療模型之風險分析

arXiv - Computers and SocietySuhas BN, Andrew M. Sherrill, Rosa I. Arriaga, Chris W. Wiese, Saeed Abdullah

研究發現 AI 的安全對齊機制(RLHF)會干擾心理治療流程,導致治療有效性在面對高風險情境時大幅崩解。

AI 幫你先抓重點

AI 重點 1

安全對齊(Safety Alignment)與專業功能之間的衝突

滑鼠懸停看 AI 判斷理由
這挑戰了「更安全的 AI 即是更好的 AI」這一直覺。在特定專業領域(如心理治療),過度的安全過濾會破壞必要的治療挑戰機制,導致 AI 因「過度保護」而失去專業功能,這對開發專業領域 AI 時提供了關鍵警示。
AI 重點 2

建立多維度的 AI 醫療評估框架之必要性

滑鼠懸停看 AI 判斷理由
單純的對話流暢度不足以衡量專業 AI。研究提出的五軸評估框架(協定忠實度、幻覺風險、行為一致性、危機安全、人口統計穩健性)為未來 AI 進入高風險專業領域提供了標準化的審核路徑。

核心研究發現

  1. 1

    在模擬心理治療情境中,模型雖能維持良好的表面回應,但在高嚴重度情境下的治療適當性卻從接近滿分驟降至 0.22-0.33。

  2. 2

    研究發現 RLHF 安全對齊會干擾治療機制,例如在暴露療法中提供錯誤安撫,或在認知重構時因觸及自傷關鍵字而拒絕挑戰扭曲認知。

  3. 3

    隨著情境嚴重度增加,模型的任務完成度與安全干擾分數顯著下降,部分模型在執行特定治療協定時的忠實度甚至降至零。

  4. 4

    目前僅有 16% 的 LLM 心理健康干預經過嚴格臨床有效性測試,且模擬顯示超過三分之一的案例出現心理惡化風險。

對教育工作者的啟發

對於開發專業領域 AI(如教育輔導或心理支持)的設計者,應避免使用通用的安全對齊技術來處理專業任務。建議採取「領域特定(Domain-specific)」的安全訓練,確保安全機制不會干擾專業教學或治療的邏輯。此外,在設計 AI 輔助系統時,必須建立多維度的評估指標,而非僅關注對話的自然度,特別是在涉及高風險情緒支持或複雜認知訓練的情境下,應優先確保模型對專業協定的忠實度與行為一致性。

原始文獻資訊

英文標題:
AI Safety Training Can be Clinically Harmful
作者:
Suhas BN, Andrew M. Sherrill, Rosa I. Arriaga, Chris W. Wiese, Saeed Abdullah
來源:
arXiv - Computers and Society
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。