網路醫療大型語言模型的幻覺與濫用

arXiv - Computers and SocietySunday Oyinlola Ogundoyin, Muhammad Ikram, Rahat Masood2026年5月21日

對 6,233 個 MedGPT 進行大規模評估，發現 25-30% 低事實準確度、33.6-54.3% 違規，並釋出 HAA-MedGPT 資料集。

AI 幫你先抓重點

AI 重點 1

低事實準確度與政策違規的高比例揭示醫療 LLM 的安全風險。

滑鼠懸停看 AI 判斷理由

此發現凸顯即使是商業化模型也存在顯著幻覺與合規缺口，直接影響患者安全與信任，提醒開發者必須加強多指標安全評估與監控。

AI 重點 2

MedGPT 與開源模型的差異顯示商業化與開源在穩定性與準確度上的權衡。

滑鼠懸停看 AI 判斷理由

了解此權衡可協助機構在選擇模型時平衡準確性與穩定性，並針對不同需求設計相應的風險緩解策略。

實務工作者應先使用 MedGPT-HEval 等工具檢測模型事實準確度與隱私披露；對行動啟用模型必須加強隱私說明；開源模型雖穩定，但需提升語義對齊；建立多指標安全評估流程並利用 HAA-MedGPT 資料集，可提升醫療 LLM 的可靠性與合規性。

英文標題：: Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models
作者：: Sunday Oyinlola Ogundoyin, Muhammad Ikram, Rahat Masood
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。