心理治療對話中的 AI 內容審查機制研究

arXiv - Computers and SocietyJiwon Kim, Claire Wang, Taeung Yoon, Sabelle Huang, Koustuv Saha2026年5月26日

本研究透過演算法審計發現，現有的 AI 內容審查系統常將真實心理治療對話誤判為不當內容，限制了 LLM 作為治療師的潛力。

AI 幫你先抓重點

AI 重點 1

內容審查機制與專業領域需求之間的「功能性衝突」

滑鼠懸停看 AI 判斷理由

這點揭示了通用型 AI 安全機制在應用於特定專業領域（如心理諮商）時的侷限性。開發者不能僅套用通用的安全標準，必須針對專業情境進行微調，否則會因過度審查而導致 AI 無法處理關鍵的臨床議題。

AI 重點 2

AI 治療師開發中的法律安全與臨床有效性權衡

滑鼠懸停看 AI 判斷理由

這對於開發心理健康相關的 EdTech 或 AI 工具至關重要。研究提醒我們，追求極致的安全性（避免爭議話題）可能會以犧牲工具的專業有效性為代價，這要求開發者在設計時必須重新定義「安全」的範疇。

核心研究發現

1
研究對 OpenAI、Meta 與 Google 三種主流的內容審查系統進行了演算法審計，測試其對真實心理治療對話的反應。
2
發現現有的內容審查護欄（Guardrails）會將心理治療中必要的敏感話題誤標記為「不當內容」，這可能削弱 LLM 執行專業治療任務的能力。
3
審查系統的設計初衷是為了安全與法律責任，但這種過度防禦的機制與心理治療需要深入探討敏感議題的需求之間存在衝突。

對教育工作者的啟發

對於開發心理健康輔助工具或進行情感支持類 AI 設計的實務工作者，本研究提供了重要警示：通用的內容審查模型（如 Llama Guard 或 Google Shield Gemma）可能不適用於高度專業化的對話情境。建議在設計相關 AI 系統時，應開發「領域特定（Domain-specific）」的審查準則，區分「有害內容」與「專業領域內的敏感議題」，以確保 AI 在維持安全性的同時，仍能提供具備深度與專業度的支持，避免因過度審查而導致教學或諮商效果受損。

原始文獻資訊

英文標題：: AI Content Moderation in Therapy Conversations
作者：: Jiwon Kim, Claire Wang, Taeung Yoon, Sabelle Huang, Koustuv Saha
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。