跨15款前沿AI聊天機器人的一次性急診精神科分診
arXiv - Human-Computer InteractionVeith Weilnhammer, Lennart Luettgau, Christopher Summerfield, Viknesh Sounderajah, Elise Wilkinson, Virginia Corno, Matthew M Nour
本研究評估15款AI聊天機器人於單訊息精神科分診的效能,發現對急診案例準確率高達94%,但對低中風險案例過度分診,顯示AI在安全性與資源分配上的挑戰。
AI 幫你先抓重點
AI 重點 1
AI在急診分診上表現出近乎零的低估率,凸顯其在安全性方面的潛力。
滑鼠懸停看 AI 判斷理由
此發現說明即使在單訊息情境下,AI也能準確識別緊急精神健康需求,為即時醫療介入提供可靠的前置篩選,降低延誤風險。
AI 重點 2
然而,AI對低至中風險案例的過度分診導致資源浪費,需調整分診閾值與人機協同機制。
滑鼠懸停看 AI 判斷理由
過度分診會使醫療系統承受不必要負擔,影響服務效率;了解此偏差有助於設計更精準的分診演算法與監督流程。
核心研究發現
- 1
AI聊天機器人對急診級別(D)案例的分診準確率高達94.3%,且在5.6%的案例中未低估緊急性,全部被重新歸類為C級。
- 2
整體平均準確率介於42.0%至71.8%,但對B級(需一週內評估)案例的準確率僅19.7%,顯示低風險分診表現最差。
- 3
平均有序誤差為+0.47級,表明AI普遍傾向於過度分診,尤其在中間級別(B、C)誤差分散最大。
- 4
所有結果均與50名醫師的共識標籤一致,證實AI在單訊息情境下可作為急診分診的可靠輔助工具。
對教育工作者的啟發
對於設計精神健康支援工具的教育工作者與課程設計者而言,本文提示AI分診模組應先確保急診案例的高準確率,並在低中風險情境下加入人工審核或自動警示機制,以避免過度分診造成資源浪費。建議在訓練資料中加入多樣化風險層級案例,並持續監測分診結果的分布與誤差,透過迭代優化演算法。若將AI分診嵌入線上諮詢平台,可先以「緊急」標籤作為安全閘道,確保使用者在需要時即時獲得醫療協助。最後,教育者可利用此研究作為案例,教導學生關於AI倫理、風險評估與人機協同的重要性。
原始文獻資訊
- 英文標題:
- One-shot emergency psychiatric triage across 15 frontier AI chatbots
- 作者:
- Veith Weilnhammer, Lennart Luettgau, Christopher Summerfield, Viknesh Sounderajah, Elise Wilkinson, Virginia Corno, Matthew M Nour
- 來源:
- arXiv - Human-Computer Interaction
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。