超越語義相似度:醫療問答系統的組件級評估框架與健康公平性影響
arXiv - Human-Computer InteractionAbu Noman Md Sakib, Md. Main Oddin Chisty, Zijie Zhang
提出 VB-Score 評估框架,拆解醫療問答模型四項指標,揭示語義與實體準確度差距及健康公平偏差。
AI 幫你先抓重點
AI 重點 1
VB-Score 的四項指標揭示語義相似度評估不足,實體與事實一致性才是醫療 AI 安全的核心。
滑鼠懸停看 AI 判斷理由
因為僅以語義相似度衡量會掩蓋實體抽取與事實錯誤,導致不安全的醫療建議;透過多維度評估可更精準定位風險。
AI 重點 2
健康公平性偏差在慢性疾病主題中顯著,提示開發者需針對少數族裔與老年人資料進行專門優化。
滑鼠懸停看 AI 判斷理由
此偏差表明 AI 可能加劇健康不平等;針對性資料增補與公平性審查能提升模型對弱勢族群的服務品質。
核心研究發現
- 1
VB-Score 將醫療問答評估拆分為實體辨識、語義相似度、事實一致性與結構化資訊完整度四項指標,提供更細緻的性能診斷。
- 2
在48個高品質公共衛生主題上測試三大 LLM,結果顯示三者在所有四項指標上普遍表現嚴重失敗,平均表現遠低於預期。
- 3
模型在涉及老年人及少數族裔慢性疾病的主題上,平均表現比其他主題低 13.8%,顯示條件基礎演算法歧視。
- 4
只靠提示工程無法彌補模型在醫療實體抽取上的架構限制,提示優化對性能提升有限。
對教育工作者的啟發
實務工作者可先採用 VB-Score 進行多維度測試,確保模型在實體辨識與事實一致性上達標;針對慢性疾病與少數族裔資料進行針對性增量訓練或提示調整;同時在部署前加入公平性審查,避免演算法歧視;最後,將評估結果納入持續監測機制,確保長期安全與公平。
原始文獻資訊
- 英文標題:
- Beyond Semantic Similarity: A Component-Wise Evaluation Framework for Medical Question Answering Systems with Health Equity Implications
- 作者:
- Abu Noman Md Sakib, Md. Main Oddin Chisty, Zijie Zhang
- 來源:
- arXiv - Human-Computer Interaction
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。