症狀不足:LLM精神健康篩查的證據加權模式
arXiv - Computers and SocietyJianfeng Zhu, Megan Korhummel, Ruoming Jin, Karin G. Coifman
建立SCID基準評估LLM篩查,發現症狀被功能與保護因素抑制,影響準確度
AI 幫你先抓重點
AI 重點 1
LLM往往在功能維持或保護性背景下忽略症狀證據,造成假陰性
滑鼠懸停看 AI 判斷理由
揭示LLM在評估精神疾病時可能優先考慮整體功能與社會環境,若不加以校正,可能導致臨床篩查失誤,影響診斷可靠性與患者安全。
AI 重點 2
GPT-4.1 Mini與GPT-5 Mini在各疾病篩查中表現更一致
滑鼠懸停看 AI 判斷理由
提示模型選擇對篩查準確度影響重大,選用表現穩定的模型可提升臨床應用的信賴度,並減少因模型差異帶來的偏差。
核心研究發現
- 1
LLM準確度在不同疾病間波動,GPT-4.1 Mini與GPT-5 Mini表現最為穩定(0.49–0.86)
- 2
抑鬱症分類在男性參與者中較女性準確,年齡與種族影響較小
- 3
對焦慮與創傷後壓力症的假陰性多含症狀證據,但伴隨功能維持或保護性社會支持,導致模型忽略症狀
對教育工作者的啟發
在實務中,先驗證LLM對功能與保護因素的加權偏好;設計篩查流程時加入功能障礙與社會支持評估;選擇表現穩定的模型如GPT-4.1 Mini;結合人類臨床判斷以降低假陰性。
原始文獻資訊
- 英文標題:
- When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening
- 作者:
- Jianfeng Zhu, Megan Korhummel, Ruoming Jin, Karin G. Coifman
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。