信任、安全與準確:評估 LLM 在產科諮詢中的效能
arXiv - Computers and SocietyV Sai Divya, A Bhanusree, Rimjhim, K Venkata Krishna Rao
研究比較 ChatGPT‑4o、Perplexity AI 與 GeminiAI 在提供孕期資訊時的準確性與易讀性,發現 Perplexity 在語義相似度上最接近專家,而 ChatGPT‑4o 文字更清晰易懂,提示 LLM 可作為偏遠地區母嬰健康教育的可擴展工具。
AI 幫你先抓重點
AI 重點 1
Perplexity AI 在語義相似度上最接近專家回答,證明其在專業知識覆蓋度上優秀。
滑鼠懸停看 AI 判斷理由
此發現顯示 Perplexity AI 能在缺乏醫療專業人力的偏遠地區提供高準確度的孕期資訊,對於提升健康教育的可信度與可及性具有關鍵意義。
AI 重點 2
ChatGPT‑4o 生成的文本更易讀且使用簡潔醫學術語,提升非專業讀者的理解度。
滑鼠懸停看 AI 判斷理由
易讀性直接影響資訊傳遞效果,若文字過於複雜會降低受眾的接受度,故此特點對於設計面向農村婦女的健康教育內容尤為重要。
核心研究發現
- 1
Perplexity AI 在 17 個孕期問題上,語義相似度與醫療專家回答最為接近,顯示其在專業知識覆蓋度上優於其他模型。
- 2
ChatGPT‑4o 生成的文本在可讀性評分上高於 GeminiAI,使用更簡潔的醫學術語,提升了非專業讀者的理解度。
- 3
GeminiAI 雖然在語義相似度上略低,但在關鍵名詞重疊率方面表現穩定,提示其在資訊提取上仍具潛力。
- 4
研究採用語義相似度、名詞重疊率與可讀性三項指標,客觀評估 LLM 回答品質,提供可量化的比較框架。
- 5
結果顯示,隨著農村地區網路覆蓋率提升,LLM 可作為可擴展的母嬰健康教育輔助工具,但仍需平衡準確性與易讀性以避免誤導。
對教育工作者的啟發
1) 在設計農村健康教育平台時,可優先採用 Perplexity AI 作為資訊來源,因其在專業語義上最接近專家;2) 針對非專業受眾,使用 ChatGPT‑4o 生成的簡潔醫學術語文本,可提升理解度;3) 需建立多模型混合策略,結合 Perplexity 的準確性與 ChatGPT‑4o 的易讀性;4) 建議開發者加入可讀性評估工具,動態調整文字難度;5) 政策層面應鼓勵 LLM 參與健康教育,並制定質量審核標準。
原始文獻資訊
- 英文標題:
- Trust, Safety, and Accuracy: Assessing LLMs for Routine Maternity Advice
- 作者:
- V Sai Divya, A Bhanusree, Rimjhim, K Venkata Krishna Rao
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。