症狀不足:LLM精神健康篩查的證據加權模式

arXiv - Computers and SocietyJianfeng Zhu, Megan Korhummel, Ruoming Jin, Karin G. Coifman

建立SCID基準評估LLM篩查,發現症狀被功能與保護因素抑制,影響準確度

AI 幫你先抓重點

AI 重點 1

LLM往往在功能維持或保護性背景下忽略症狀證據,造成假陰性

滑鼠懸停看 AI 判斷理由
揭示LLM在評估精神疾病時可能優先考慮整體功能與社會環境,若不加以校正,可能導致臨床篩查失誤,影響診斷可靠性與患者安全。
AI 重點 2

GPT-4.1 Mini與GPT-5 Mini在各疾病篩查中表現更一致

滑鼠懸停看 AI 判斷理由
提示模型選擇對篩查準確度影響重大,選用表現穩定的模型可提升臨床應用的信賴度,並減少因模型差異帶來的偏差。

核心研究發現

  1. 1

    LLM準確度在不同疾病間波動,GPT-4.1 Mini與GPT-5 Mini表現最為穩定(0.49–0.86)

  2. 2

    抑鬱症分類在男性參與者中較女性準確,年齡與種族影響較小

  3. 3

    對焦慮與創傷後壓力症的假陰性多含症狀證據,但伴隨功能維持或保護性社會支持,導致模型忽略症狀

對教育工作者的啟發

在實務中,先驗證LLM對功能與保護因素的加權偏好;設計篩查流程時加入功能障礙與社會支持評估;選擇表現穩定的模型如GPT-4.1 Mini;結合人類臨床判斷以降低假陰性。

原始文獻資訊

英文標題:
When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening
作者:
Jianfeng Zhu, Megan Korhummel, Ruoming Jin, Karin G. Coifman
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。