MIRA:雙語醫療資訊回應審核基準

arXiv - Computers and SocietyMengyu Xu, Qiaoxin Yang, Qianqian Wang, Xiwei Dai, Weiyi Wu, Chongyang Gao

提出雙語醫療資訊回應審核基準,發現低健康素養用戶的回答資訊被稀釋,並提出減緩策略

AI 幫你先抓重點

AI 重點 1

低健康素養用戶的回答易被資訊稀釋,需針對性設計提示以維持資訊完整性

滑鼠懸停看 AI 判斷理由
此發現揭示 LLM 可能對低健康素養使用者產生偏見,影響公平獲取醫療資訊。了解此偏差可指導提示工程與政策制定,確保所有使用者獲得完整、可操作的建議。
AI 重點 2

語言效應模型特異,非英語提示不一定較差,提示設計需考慮模型特性

滑鼠懸停看 AI 判斷理由
挑戰了「非英語提示普遍較差」的假設,提示設計者必須針對不同模型進行調整,避免一刀切的多語言策略,提升跨語言服務品質。

核心研究發現

  1. 1

    在 60 個低風險醫療問題的 4,320 句雙語提示中,五大主流 LLM 全部能回答,但低健康素養提示的回答缺失關鍵資訊、步驟與獨立判斷支持,形成差異資訊稀釋(DID)模式。

  2. 2

    語言效應因模型而異,非英語提示並不普遍較差,表明語言差異不是單一因素。

  3. 3

    與 300 個真實健康查詢的比較顯示 MIRA 的排名順序具有初步效度。

  4. 4

    使用知識引導的緩解提示可減少大多數模型的資訊稀釋,Claude 減少約 8%,Qwen 約 6%。

對教育工作者的啟發

教育工作者與健康資訊平台設計者可利用 MIRA 進行模型評估,確保在不同語言與健康素養層級下提供完整、可操作的醫療建議;同時採用知識引導提示減少資訊稀釋,提升低素養使用者的自我決策能力。

原始文獻資訊

英文標題:
MIRA: A Bilingual Benchmark for Medical Information Response Audit
作者:
Mengyu Xu, Qiaoxin Yang, Qianqian Wang, Xiwei Dai, Weiyi Wu, Chongyang Gao
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。