ai edtech assessment knowledge building learning design

信任、安全與準確：評估 LLM 在產科諮詢中的效能

arXiv - Computers and SocietyV Sai Divya, A Bhanusree, Rimjhim, K Venkata Krishna Rao2026年3月19日

研究比較 ChatGPT‑4o、Perplexity AI 與 GeminiAI 在提供孕期資訊時的準確性與易讀性，發現 Perplexity 在語義相似度上最接近專家，而 ChatGPT‑4o 文字更清晰易懂，提示 LLM 可作為偏遠地區母嬰健康教育的可擴展工具。

AI 幫你先抓重點

AI 重點 1

Perplexity AI 在語義相似度上最接近專家回答，證明其在專業知識覆蓋度上優秀。

滑鼠懸停看 AI 判斷理由

此發現顯示 Perplexity AI 能在缺乏醫療專業人力的偏遠地區提供高準確度的孕期資訊，對於提升健康教育的可信度與可及性具有關鍵意義。

AI 重點 2

ChatGPT‑4o 生成的文本更易讀且使用簡潔醫學術語，提升非專業讀者的理解度。

滑鼠懸停看 AI 判斷理由

易讀性直接影響資訊傳遞效果，若文字過於複雜會降低受眾的接受度，故此特點對於設計面向農村婦女的健康教育內容尤為重要。

核心研究發現

1
Perplexity AI 在 17 個孕期問題上，語義相似度與醫療專家回答最為接近，顯示其在專業知識覆蓋度上優於其他模型。
2
ChatGPT‑4o 生成的文本在可讀性評分上高於 GeminiAI，使用更簡潔的醫學術語，提升了非專業讀者的理解度。
3
GeminiAI 雖然在語義相似度上略低，但在關鍵名詞重疊率方面表現穩定，提示其在資訊提取上仍具潛力。
4
研究採用語義相似度、名詞重疊率與可讀性三項指標，客觀評估 LLM 回答品質，提供可量化的比較框架。
5
結果顯示，隨著農村地區網路覆蓋率提升，LLM 可作為可擴展的母嬰健康教育輔助工具，但仍需平衡準確性與易讀性以避免誤導。

對教育工作者的啟發

1) 在設計農村健康教育平台時，可優先採用 Perplexity AI 作為資訊來源，因其在專業語義上最接近專家；2) 針對非專業受眾，使用 ChatGPT‑4o 生成的簡潔醫學術語文本，可提升理解度；3) 需建立多模型混合策略，結合 Perplexity 的準確性與 ChatGPT‑4o 的易讀性；4) 建議開發者加入可讀性評估工具，動態調整文字難度；5) 政策層面應鼓勵 LLM 參與健康教育，並制定質量審核標準。

原始文獻資訊

英文標題：: Trust, Safety, and Accuracy: Assessing LLMs for Routine Maternity Advice
作者：: V Sai Divya, A Bhanusree, Rimjhim, K Venkata Krishna Rao
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。