症狀不足：LLM精神健康篩查的證據加權模式

arXiv - Computers and SocietyJianfeng Zhu, Megan Korhummel, Ruoming Jin, Karin G. Coifman2026年5月25日

建立SCID基準評估LLM篩查，發現症狀被功能與保護因素抑制，影響準確度

AI 幫你先抓重點

AI 重點 1

LLM往往在功能維持或保護性背景下忽略症狀證據，造成假陰性

滑鼠懸停看 AI 判斷理由

揭示LLM在評估精神疾病時可能優先考慮整體功能與社會環境，若不加以校正，可能導致臨床篩查失誤，影響診斷可靠性與患者安全。

AI 重點 2

GPT-4.1 Mini與GPT-5 Mini在各疾病篩查中表現更一致

滑鼠懸停看 AI 判斷理由

提示模型選擇對篩查準確度影響重大，選用表現穩定的模型可提升臨床應用的信賴度，並減少因模型差異帶來的偏差。

在實務中，先驗證LLM對功能與保護因素的加權偏好；設計篩查流程時加入功能障礙與社會支持評估；選擇表現穩定的模型如GPT-4.1 Mini；結合人類臨床判斷以降低假陰性。

英文標題：: When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening
作者：: Jianfeng Zhu, Megan Korhummel, Ruoming Jin, Karin G. Coifman
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。