人機協同大型語言模型評分手寫數學測驗
arXiv - Computers and SocietyArne Vanhoyweghen, Vincent Holst, Melika Mobini, Lukas Van de Voorde, Tibo Vanleke, Bert Verbruggen, Brecht Verbeken, Andres Algaba, Sam Verboven, Marie-Anne Guerry, Filip Van Droogenbroeck, Vincent Ginis
利用人機協同LLM對手寫數學測驗進行可擴展評分,減少23%評分時間且保持公平準確。
AI 幫你先抓重點
AI 重點 1
人機協同評分流程的設計與實驗驗證
滑鼠懸停看 AI 判斷理由
這點展示了如何將LLM與人工結合,並在實際課程中證明可行性與效益,對於想要落地AI評分的教育工作者至關重要。
AI 重點 2
多輪LLM評分與自動一致性檢查機制
滑鼠懸停看 AI 判斷理由
此機制確保評分一致性並降低錯誤率,說明AI在評分中的可靠性與可控性,為後續擴展提供技術保障。
核心研究發現
- 1
建立結構化解題關鍵與詳細評分規則,為LLM提供明確指引。
- 2
透過多階段掃描、匿名化及多輪LLM評分,確保資料隱私與評分一致性。
- 3
系統在兩門本科數學課程中實驗,LLM協助評分時間縮短約23%。
- 4
評分準確度與人工完全評分相當,甚至在部分測驗中更嚴謹。
- 5
人機協同設計有效控制LLM偶發錯誤,維持評分公平與可靠。
對教育工作者的啟發
本研究提供了一套完整的LLM評分工作流程,包含解題關鍵構建、詳細評分規則、掃描匿名化、多輪評分與一致性檢查。實務工作者可依此流程快速部署於課堂測驗,減少評分時間約23%,同時透過人工驗證確保公平與準確。建議先在低風險測驗中試點,逐步擴大至大規模評分;同時設計可追蹤的錯誤報告機制,方便持續優化評分規則與LLM輸出。
原始文獻資訊
- 英文標題:
- Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments
- 作者:
- Arne Vanhoyweghen, Vincent Holst, Melika Mobini, Lukas Van de Voorde, Tibo Vanleke, Bert Verbruggen, Brecht Verbeken, Andres Algaba, Sam Verboven, Marie-Anne Guerry, Filip Van Droogenbroeck, Vincent Ginis
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。