TherapyGym:評估與調整治療聊天機器人臨床忠實度與安全性
arXiv - Computers and SocietyFangrui Huang, Souhad Chbeir, Arpandeep Khatua, Sheng Wang, Sijun Tan, Kenan Ye, Lily Bailey, Merryn Daniel, Ryan Louie, Sanmi Koyejo, Ehsan Adeli
提出TherapyGym框架,透過CTRS與安全評估,提升治療聊天機器人臨床忠實度與安全性
AI 幫你先抓重點
AI 重點 1
TherapyGym框架結合臨床評分與安全多標籤,提供可重複、可擴充的評估機制
滑鼠懸停看 AI 判斷理由
此結合填補了現有對話評估缺乏臨床關鍵維度的空白,讓開發者能在可擴充的環境中持續驗證與優化模型。
AI 重點 2
TherapyJudgeBench提供大量專家評分資料,能校正LLM判斷者偏差,提升評分可靠性
滑鼠懸停看 AI 判斷理由
LLM判斷者易受偏差與不穩定影響,該基準集作為金標準可用於校正與驗證,確保評估結果更貼近臨床實務。
核心研究發現
- 1
建立自動化評分管道,使用Cognitive Therapy Rating Scale (CTRS) 量化多輪對話中CBT技巧的遵循度。
- 2
設計多標籤安全評估方案,涵蓋治療特定風險,如未處理危害或虐待情境。
- 3
釋出TherapyJudgeBench,包含116段對話與1270位專家評分,用於校正LLM判斷者的偏差與可靠性。
- 4
透過CTRS與安全獎勵驅動的RL訓練,模型在多樣化症狀模擬中表現提升,CTRS平均值從0.10升至0.60。
- 5
在LLM判斷者評估下,模型仍顯著提升,CTRS從0.16升至0.59,證明框架對不同評分者均有效。
對教育工作者的啟發
TherapyGym提供一套完整的評估與訓練流程,實務工作者可先使用CTRS自動評分管道快速檢測聊天機器人是否遵循CBT技巧,並透過多標籤安全評估確保不會忽略危害或虐待情境。若需進一步提升模型表現,可利用TherapyJudgeBench的專家評分資料進行校正,減少LLM判斷者的偏差。最後,將CTRS與安全獎勵整合進RL訓練,並設計多樣化症狀模擬,能在不同患者情境下提升模型的臨床忠實度。這一流程不僅適用於臨床應用,也可擴展到教育領域的情境式學習與心理健康輔導,為教育科技產品提供更安全、可信的對話體驗。
原始文獻資訊
- 英文標題:
- TherapyGym: Evaluating and Aligning Clinical Fidelity and Safety in Therapy Chatbots
- 作者:
- Fangrui Huang, Souhad Chbeir, Arpandeep Khatua, Sheng Wang, Sijun Tan, Kenan Ye, Lily Bailey, Merryn Daniel, Ryan Louie, Sanmi Koyejo, Ehsan Adeli
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。