PsychBench：審核大型語言模型在心理健康模擬中的流行病學保真度

arXiv - Computers and SocietyPatrick Keough2026年4月21日

研究發現 LLM 雖能模擬合理的個體，卻無法準確代表真實人口的統計分佈，存在嚴重的偏差與群體抹除風險。

AI 幫你先抓重點

AI 重點 1

警惕「看似合理」的虛假真實感

滑鼠懸停看 AI 判斷理由

模型生成的個體在單一情境下極具說服力，這會讓使用者誤以為其具備統計代表性，進而導致在臨床訓練或研究中基於錯誤的群體假設進行決策。

AI 重點 2

算法偏見對弱勢群體的雙重傷害

滑鼠懸停看 AI 判斷理由

模型不僅會過度病理化普通人的情緒，更會透過「低估」弱勢群體的壓力來進行算法抹除，這在心理健康工具的開發中可能導致嚴重的倫理與醫療風險。

核心研究發現

1
模型呈現「連貫性與保真度的脫節」：雖然生成的病人個體看起來臨床合理，但其統計分佈與真實人口（如 NHANES 數據）嚴重不符。
2
模型存在顯著的變異壓縮現象，導致臨床現實中的極端案例（分布尾端）消失，且有 36.66% 的案例在多次測試間診斷結果不一致。
3
模型存在系統性偏差，普遍高估多數群體的憂鬱嚴重程度，卻嚴重低估跨性別群體的壓力水平，導致算法抹除真實需求。
4
模型編碼了種族與性別偏見，例如將易怒歸因於黑人男性，並將疲勞歸因於女性，且此模式在美中兩國模型中皆存在。

對教育工作者的啟發

對於開發心理健康模擬工具或教育訓練系統的設計者，應意識到 LLM 並非真實人口的縮影。建議在設計基於 AI 的臨床模擬課程時，必須引入「偏差校正機制」，並針對少數族裔與性別少數群體進行專門的數據驗證，而非僅依賴模型內建的常識。此外，在評估 AI 輔助教學或心理輔導工具時，應建立多維度的統計保真度檢測標準，防止模型因過度簡化現實分佈而導致的錯誤教學或誤導性診斷。

原始文獻資訊

英文標題：: PsychBench: Auditing Epidemiological Fidelity in Large Language Model Mental Health Simulations
作者：: Patrick Keough
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。