ai edtech assessment higher education learning design

人機協同大型語言模型評分手寫數學測驗

arXiv - Computers and SocietyArne Vanhoyweghen, Vincent Holst, Melika Mobini, Lukas Van de Voorde, Tibo Vanleke, Bert Verbruggen, Brecht Verbeken, Andres Algaba, Sam Verboven, Marie-Anne Guerry, Filip Van Droogenbroeck, Vincent Ginis2026年3月16日

利用人機協同LLM對手寫數學測驗進行可擴展評分，減少23%評分時間且保持公平準確。

AI 幫你先抓重點

AI 重點 1

人機協同評分流程的設計與實驗驗證

滑鼠懸停看 AI 判斷理由

這點展示了如何將LLM與人工結合，並在實際課程中證明可行性與效益，對於想要落地AI評分的教育工作者至關重要。

AI 重點 2

多輪LLM評分與自動一致性檢查機制

滑鼠懸停看 AI 判斷理由

此機制確保評分一致性並降低錯誤率，說明AI在評分中的可靠性與可控性，為後續擴展提供技術保障。

核心研究發現

1
建立結構化解題關鍵與詳細評分規則，為LLM提供明確指引。
2
透過多階段掃描、匿名化及多輪LLM評分，確保資料隱私與評分一致性。
3
系統在兩門本科數學課程中實驗，LLM協助評分時間縮短約23%。
4
評分準確度與人工完全評分相當，甚至在部分測驗中更嚴謹。
5
人機協同設計有效控制LLM偶發錯誤，維持評分公平與可靠。

對教育工作者的啟發

本研究提供了一套完整的LLM評分工作流程，包含解題關鍵構建、詳細評分規則、掃描匿名化、多輪評分與一致性檢查。實務工作者可依此流程快速部署於課堂測驗，減少評分時間約23%，同時透過人工驗證確保公平與準確。建議先在低風險測驗中試點，逐步擴大至大規模評分；同時設計可追蹤的錯誤報告機制，方便持續優化評分規則與LLM輸出。

原始文獻資訊

英文標題：: Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments
作者：: Arne Vanhoyweghen, Vincent Holst, Melika Mobini, Lukas Van de Voorde, Tibo Vanleke, Bert Verbruggen, Brecht Verbeken, Andres Algaba, Sam Verboven, Marie-Anne Guerry, Filip Van Droogenbroeck, Vincent Ginis
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。