ai edtech assessment learning design knowledge building

Scout：基於大型語言模型的電子健康記錄搜尋與綜合平台

arXiv - Computers and SocietyMichael Gao, Suresh Balu, William Knechtle, Kartik Pejavara, William Jeck, Matthew Ellis, Jason Thieling, Blake Cameron, Jason Tatreau, Tareq Aljurf, Henry Foote, Michael Revoir, Marshall Nichols, Matthew Gardner, William Ratliff, Bradley Hintze, Angelo Milazzo, Sreekanth Vemulapalli2026年5月1日

Scout 透過 LLM 讓臨床人員以自然語言查詢 EHR，顯著縮短任務時間並維持準確度。

AI 幫你先抓重點

AI 重點 1

LLM 能即時生成帶引用的 EHR 回覆，減輕臨床工作負荷並保持質量。

滑鼠懸停看 AI 判斷理由

此功能展示 AI 可透過自然語言提供可驗證、簡潔的答案，改變臨床文件流程，降低醫師倦怠並提升工作效率。

AI 重點 2

自動化評估框架揭示人工審查仍不可或缺，提示 AI 產出需結合人機協作。

滑鼠懸停看 AI 判斷理由

即使自動判斷錯誤率低，人工審核仍能發現被誤判的聲稱，強調設計 AI 工具時必須嵌入驗證機制以確保資訊安全與可靠。

核心研究發現

1
Scout 在 20 名參與者、200 個案例的隨機交叉試驗中，任務完成時間縮短 37.6%，並顯著降低 NASA 工作負荷指標，尤其精神需求、努力與時間需求。
2
Scout 的輸出在準確度、完整度與相關性方面與僅使用 EHR 的任務無統計差異，證明其非劣勢。
3
在 200 名使用者、20 個專科的實際部署中，三個月內產生 6,600 次互動，並透過 LLM-as-judge 自動評估錯誤率低；人工審查顯示大多被判錯誤的聲稱實際得到病歷支持，凸顯人工驗證的重要性。

對教育工作者的啟發

Scout 的設計證明，將大型語言模型嵌入 EHR 查詢介面，可在不犧牲準確度的前提下，顯著縮短醫師查詢時間並降低精神負荷。實務上，開發者可採用自然語言介面並加入引用鏈結，確保資訊可追溯；同時，建立人工審核機制或自動化判斷閾值，以避免誤導。醫療機構可先在少數科別試點，收集使用者反饋調整模型，並透過工作負荷指標（如 NASA TLX）評估效益。此模式亦可延伸至行政資料查詢、臨床決策支援與醫療教育，提升整體工作效率與學習成效。

原始文獻資訊

英文標題：: A Randomized Controlled Trial and Pilot of Scout: an LLM-Based EHR Search and Synthesis Platform
作者：: Michael Gao, Suresh Balu, William Knechtle, Kartik Pejavara, William Jeck, Matthew Ellis, Jason Thieling, Blake Cameron, Jason Tatreau, Tareq Aljurf, Henry Foote, Michael Revoir, Marshall Nichols, Matthew Gardner, William Ratliff, Bradley Hintze, Angelo Milazzo, Sreekanth Vemulapalli
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。