LLM 與精神健康專業人員對人格障礙診斷的比較:以第一人稱敘事為基礎

arXiv - Computers and SocietyKarolina Dro\.zd\.z, Kacper Dudzic, Anna Sterna, Marcin Moskalewicz

LLM 在診斷邊緣性人格障礙上與專業人員相近,但對自戀人格障礙嚴重低估,顯示其在解讀第一人稱敘事時仍存在可靠性與偏差問題。

AI 幫你先抓重點

AI 重點 1

LLM 在自戀人格障礙診斷上顯著低估,提示其對價值導向詞彙的敏感度不足。

滑鼠懸停看 AI 判斷理由
這揭示了在臨床自評工具中使用 LLM 的風險,因為模型可能忽略關鍵診斷,導致使用者錯誤自我判斷或延誤專業治療。
AI 重點 2

模型診斷說明過於自信且模式化,缺乏對患者主觀經驗的考量。

滑鼠懸停看 AI 判斷理由
此點提醒教育者與臨床工作者需將 AI 輸出與人類判斷結合,避免過度依賴算法的確定性,確保診斷的全面性與人性化。

核心研究發現

  1. 1

    Gemini Pro 模型在診斷 BPD 與 NPD 的整體準確率為 65.48%,比人類專業人員平均 43.57% 高 21.91 點。

  2. 2

    在 BPD 的識別上,模型 F1 為 83.4,專業人員為 80.0,兩者相近;但在 NPD 的識別上,模型 F1 只有 6.7,遠低於專業人員的 50.0,顯示模型對「自戀」一詞的敏感度不足。

  3. 3

    模型的診斷說明傾向於自信且詳細,聚焦於模式與正式分類;而人類專業人員的說明則簡潔謹慎,強調患者自我感與時間經驗。

對教育工作者的啟發

在設計 AI 支援診斷工具時,應加入人類專業審核層級,尤其針對自戀人格障礙等敏感類別;對模型說明的自信度進行校正,加入自我反思提示,避免過度自信;透過多語言、多文化資料擴充訓練集,提升模型對不同敘事風格的適應;在教育實務中,可將此研究作為案例,教導學生關注 AI 產出與人類判斷的差異,培養批判性思維與元認知能力。

原始文獻資訊

英文標題:
Patterns vs. Patients: Evaluating LLMs against Mental Health Professionals on Personality Disorder Diagnosis through First-Person Narratives
作者:
Karolina Dro\.zd\.z, Kacper Dudzic, Anna Sterna, Marcin Moskalewicz
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。