人機協同大型語言模型評分手寫數學測驗

arXiv - Computers and SocietyArne Vanhoyweghen, Vincent Holst, Melika Mobini, Lukas Van de Voorde, Tibo Vanleke, Bert Verbruggen, Brecht Verbeken, Andres Algaba, Sam Verboven, Marie-Anne Guerry, Filip Van Droogenbroeck, Vincent Ginis

利用人機協同LLM對手寫數學測驗進行可擴展評分,減少23%評分時間且保持公平準確。

AI 幫你先抓重點

AI 重點 1

人機協同評分流程的設計與實驗驗證

滑鼠懸停看 AI 判斷理由
這點展示了如何將LLM與人工結合,並在實際課程中證明可行性與效益,對於想要落地AI評分的教育工作者至關重要。
AI 重點 2

多輪LLM評分與自動一致性檢查機制

滑鼠懸停看 AI 判斷理由
此機制確保評分一致性並降低錯誤率,說明AI在評分中的可靠性與可控性,為後續擴展提供技術保障。

核心研究發現

  1. 1

    建立結構化解題關鍵與詳細評分規則,為LLM提供明確指引。

  2. 2

    透過多階段掃描、匿名化及多輪LLM評分,確保資料隱私與評分一致性。

  3. 3

    系統在兩門本科數學課程中實驗,LLM協助評分時間縮短約23%。

  4. 4

    評分準確度與人工完全評分相當,甚至在部分測驗中更嚴謹。

  5. 5

    人機協同設計有效控制LLM偶發錯誤,維持評分公平與可靠。

對教育工作者的啟發

本研究提供了一套完整的LLM評分工作流程,包含解題關鍵構建、詳細評分規則、掃描匿名化、多輪評分與一致性檢查。實務工作者可依此流程快速部署於課堂測驗,減少評分時間約23%,同時透過人工驗證確保公平與準確。建議先在低風險測驗中試點,逐步擴大至大規模評分;同時設計可追蹤的錯誤報告機制,方便持續優化評分規則與LLM輸出。

原始文獻資訊

英文標題:
Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments
作者:
Arne Vanhoyweghen, Vincent Holst, Melika Mobini, Lukas Van de Voorde, Tibo Vanleke, Bert Verbruggen, Brecht Verbeken, Andres Algaba, Sam Verboven, Marie-Anne Guerry, Filip Van Droogenbroeck, Vincent Ginis
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。