超越語義相似度:醫療問答系統的組件級評估框架與健康公平性影響

arXiv - Human-Computer InteractionAbu Noman Md Sakib, Md. Main Oddin Chisty, Zijie Zhang

提出 VB-Score 評估框架,拆解醫療問答模型四項指標,揭示語義與實體準確度差距及健康公平偏差。

AI 幫你先抓重點

AI 重點 1

VB-Score 的四項指標揭示語義相似度評估不足,實體與事實一致性才是醫療 AI 安全的核心。

滑鼠懸停看 AI 判斷理由
因為僅以語義相似度衡量會掩蓋實體抽取與事實錯誤,導致不安全的醫療建議;透過多維度評估可更精準定位風險。
AI 重點 2

健康公平性偏差在慢性疾病主題中顯著,提示開發者需針對少數族裔與老年人資料進行專門優化。

滑鼠懸停看 AI 判斷理由
此偏差表明 AI 可能加劇健康不平等;針對性資料增補與公平性審查能提升模型對弱勢族群的服務品質。

核心研究發現

  1. 1

    VB-Score 將醫療問答評估拆分為實體辨識、語義相似度、事實一致性與結構化資訊完整度四項指標,提供更細緻的性能診斷。

  2. 2

    在48個高品質公共衛生主題上測試三大 LLM,結果顯示三者在所有四項指標上普遍表現嚴重失敗,平均表現遠低於預期。

  3. 3

    模型在涉及老年人及少數族裔慢性疾病的主題上,平均表現比其他主題低 13.8%,顯示條件基礎演算法歧視。

  4. 4

    只靠提示工程無法彌補模型在醫療實體抽取上的架構限制,提示優化對性能提升有限。

對教育工作者的啟發

實務工作者可先採用 VB-Score 進行多維度測試,確保模型在實體辨識與事實一致性上達標;針對慢性疾病與少數族裔資料進行針對性增量訓練或提示調整;同時在部署前加入公平性審查,避免演算法歧視;最後,將評估結果納入持續監測機制,確保長期安全與公平。

原始文獻資訊

英文標題:
Beyond Semantic Similarity: A Component-Wise Evaluation Framework for Medical Question Answering Systems with Health Equity Implications
作者:
Abu Noman Md Sakib, Md. Main Oddin Chisty, Zijie Zhang
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。