信任、安全與準確:評估 LLM 在產科諮詢中的效能

arXiv - Computers and SocietyV Sai Divya, A Bhanusree, Rimjhim, K Venkata Krishna Rao

研究比較 ChatGPT‑4o、Perplexity AI 與 GeminiAI 在提供孕期資訊時的準確性與易讀性,發現 Perplexity 在語義相似度上最接近專家,而 ChatGPT‑4o 文字更清晰易懂,提示 LLM 可作為偏遠地區母嬰健康教育的可擴展工具。

AI 幫你先抓重點

AI 重點 1

Perplexity AI 在語義相似度上最接近專家回答,證明其在專業知識覆蓋度上優秀。

滑鼠懸停看 AI 判斷理由
此發現顯示 Perplexity AI 能在缺乏醫療專業人力的偏遠地區提供高準確度的孕期資訊,對於提升健康教育的可信度與可及性具有關鍵意義。
AI 重點 2

ChatGPT‑4o 生成的文本更易讀且使用簡潔醫學術語,提升非專業讀者的理解度。

滑鼠懸停看 AI 判斷理由
易讀性直接影響資訊傳遞效果,若文字過於複雜會降低受眾的接受度,故此特點對於設計面向農村婦女的健康教育內容尤為重要。

核心研究發現

  1. 1

    Perplexity AI 在 17 個孕期問題上,語義相似度與醫療專家回答最為接近,顯示其在專業知識覆蓋度上優於其他模型。

  2. 2

    ChatGPT‑4o 生成的文本在可讀性評分上高於 GeminiAI,使用更簡潔的醫學術語,提升了非專業讀者的理解度。

  3. 3

    GeminiAI 雖然在語義相似度上略低,但在關鍵名詞重疊率方面表現穩定,提示其在資訊提取上仍具潛力。

  4. 4

    研究採用語義相似度、名詞重疊率與可讀性三項指標,客觀評估 LLM 回答品質,提供可量化的比較框架。

  5. 5

    結果顯示,隨著農村地區網路覆蓋率提升,LLM 可作為可擴展的母嬰健康教育輔助工具,但仍需平衡準確性與易讀性以避免誤導。

對教育工作者的啟發

1) 在設計農村健康教育平台時,可優先採用 Perplexity AI 作為資訊來源,因其在專業語義上最接近專家;2) 針對非專業受眾,使用 ChatGPT‑4o 生成的簡潔醫學術語文本,可提升理解度;3) 需建立多模型混合策略,結合 Perplexity 的準確性與 ChatGPT‑4o 的易讀性;4) 建議開發者加入可讀性評估工具,動態調整文字難度;5) 政策層面應鼓勵 LLM 參與健康教育,並制定質量審核標準。

原始文獻資訊

英文標題:
Trust, Safety, and Accuracy: Assessing LLMs for Routine Maternity Advice
作者:
V Sai Divya, A Bhanusree, Rimjhim, K Venkata Krishna Rao
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。