ai edtech assessment learning design higher education

TherapyGym：評估與調整治療聊天機器人臨床忠實度與安全性

arXiv - Computers and SocietyFangrui Huang, Souhad Chbeir, Arpandeep Khatua, Sheng Wang, Sijun Tan, Kenan Ye, Lily Bailey, Merryn Daniel, Ryan Louie, Sanmi Koyejo, Ehsan Adeli2026年3月20日

提出TherapyGym框架，透過CTRS與安全評估，提升治療聊天機器人臨床忠實度與安全性

AI 幫你先抓重點

AI 重點 1

TherapyGym框架結合臨床評分與安全多標籤，提供可重複、可擴充的評估機制

滑鼠懸停看 AI 判斷理由

此結合填補了現有對話評估缺乏臨床關鍵維度的空白，讓開發者能在可擴充的環境中持續驗證與優化模型。

AI 重點 2

TherapyJudgeBench提供大量專家評分資料，能校正LLM判斷者偏差，提升評分可靠性

滑鼠懸停看 AI 判斷理由

LLM判斷者易受偏差與不穩定影響，該基準集作為金標準可用於校正與驗證，確保評估結果更貼近臨床實務。

核心研究發現

1
建立自動化評分管道，使用Cognitive Therapy Rating Scale (CTRS) 量化多輪對話中CBT技巧的遵循度。
2
設計多標籤安全評估方案，涵蓋治療特定風險，如未處理危害或虐待情境。
3
釋出TherapyJudgeBench，包含116段對話與1270位專家評分，用於校正LLM判斷者的偏差與可靠性。
4
透過CTRS與安全獎勵驅動的RL訓練，模型在多樣化症狀模擬中表現提升，CTRS平均值從0.10升至0.60。
5
在LLM判斷者評估下，模型仍顯著提升，CTRS從0.16升至0.59，證明框架對不同評分者均有效。

對教育工作者的啟發

TherapyGym提供一套完整的評估與訓練流程，實務工作者可先使用CTRS自動評分管道快速檢測聊天機器人是否遵循CBT技巧，並透過多標籤安全評估確保不會忽略危害或虐待情境。若需進一步提升模型表現，可利用TherapyJudgeBench的專家評分資料進行校正，減少LLM判斷者的偏差。最後，將CTRS與安全獎勵整合進RL訓練，並設計多樣化症狀模擬，能在不同患者情境下提升模型的臨床忠實度。這一流程不僅適用於臨床應用，也可擴展到教育領域的情境式學習與心理健康輔導，為教育科技產品提供更安全、可信的對話體驗。

原始文獻資訊

英文標題：: TherapyGym: Evaluating and Aligning Clinical Fidelity and Safety in Therapy Chatbots
作者：: Fangrui Huang, Souhad Chbeir, Arpandeep Khatua, Sheng Wang, Sijun Tan, Kenan Ye, Lily Bailey, Merryn Daniel, Ryan Louie, Sanmi Koyejo, Ehsan Adeli
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。