ai assessment edtech higher education learning design

LLM 與精神健康專業人員對人格障礙診斷的比較：以第一人稱敘事為基礎

arXiv - Computers and SocietyKarolina Dro\.zd\.z, Kacper Dudzic, Anna Sterna, Marcin Moskalewicz2026年5月25日

LLM 在診斷邊緣性人格障礙上與專業人員相近，但對自戀人格障礙嚴重低估，顯示其在解讀第一人稱敘事時仍存在可靠性與偏差問題。

AI 幫你先抓重點

AI 重點 1

LLM 在自戀人格障礙診斷上顯著低估，提示其對價值導向詞彙的敏感度不足。

滑鼠懸停看 AI 判斷理由

這揭示了在臨床自評工具中使用 LLM 的風險，因為模型可能忽略關鍵診斷，導致使用者錯誤自我判斷或延誤專業治療。

AI 重點 2

模型診斷說明過於自信且模式化，缺乏對患者主觀經驗的考量。

滑鼠懸停看 AI 判斷理由

此點提醒教育者與臨床工作者需將 AI 輸出與人類判斷結合，避免過度依賴算法的確定性，確保診斷的全面性與人性化。

核心研究發現

1
Gemini Pro 模型在診斷 BPD 與 NPD 的整體準確率為 65.48%，比人類專業人員平均 43.57% 高 21.91 點。
2
在 BPD 的識別上，模型 F1 為 83.4，專業人員為 80.0，兩者相近；但在 NPD 的識別上，模型 F1 只有 6.7，遠低於專業人員的 50.0，顯示模型對「自戀」一詞的敏感度不足。
3
模型的診斷說明傾向於自信且詳細，聚焦於模式與正式分類；而人類專業人員的說明則簡潔謹慎，強調患者自我感與時間經驗。

對教育工作者的啟發

在設計 AI 支援診斷工具時，應加入人類專業審核層級，尤其針對自戀人格障礙等敏感類別；對模型說明的自信度進行校正，加入自我反思提示，避免過度自信；透過多語言、多文化資料擴充訓練集，提升模型對不同敘事風格的適應；在教育實務中，可將此研究作為案例，教導學生關注 AI 產出與人類判斷的差異，培養批判性思維與元認知能力。

原始文獻資訊

英文標題：: Patterns vs. Patients: Evaluating LLMs against Mental Health Professionals on Personality Disorder Diagnosis through First-Person Narratives
作者：: Karolina Dro\.zd\.z, Kacper Dudzic, Anna Sterna, Marcin Moskalewicz
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。