使用視覺型大型語言模型自動批改手寫數學

arXiv - Computers and SocietyJacob Levine, Miguel Aenlle, Craig Zilles, Matthew West, Mariana Silva2026年5月20日

本研究驗證視覺型大型語言模型能以單一呼叫完成手寫數學作業的轉錄與評分，並指出其準確度高但主要受轉錄失誤影響。

AI 幫你先抓重點

AI 重點 1

LLM 能在單一呼叫中完成轉錄與評分，顯示批改流程可大幅簡化。

滑鼠懸停看 AI 判斷理由

這表明視覺型大型語言模型能同時處理圖像轉錄與 rubric 評分，減少多步驟流程與延遲，為實際教室環境提供可擴展的自動化解決方案。

AI 重點 2

轉錄失誤是主要錯誤來源，提醒開發者必須優先提升圖像前處理與模型提示，以確保評分準確。

滑鼠懸停看 AI 判斷理由

了解錯誤根源將焦點從 rubric 設計轉向資料品質與提示工程，指導資源投入於圖像增強與 prompt 優化，直接提升批改可靠性。

1
在兩門大學 STEM 課程的學生手寫數學作業上，LLM 以單一呼叫完成轉錄與評分，整體準確率高，最佳模型達 87% 的正確率，其中大部分錯誤來自轉錄失敗而非評分規則誤用。
2
主要錯誤模式包括圖像品質差、模型產生幻覺內容以及對等價表達式處理不當，提示圖像前處理與提示設計的重要性。
3
研究提供了針對系統設計、提示優化與實際部署的具體建議，顯示 LLM 批改手寫數學雖具潛力，但仍需針對轉錄與圖像品質進行改進。

為提升 LLM 批改手寫數學的實用性，建議先進行圖像前處理（如去噪、對齊）以降低轉錄錯誤；設計明確提示，要求模型先完成文字轉錄再依 rubric 評分；持續監測轉錄準確率，對低信度案例進行人工核對；利用 LLM 快速提供即時回饋，促進學生即時修正；最後將自動評分與人為審核結合，確保評分公平與透明。

英文標題：: Automated Grading of Handwritten Mathematics Using Vision-Capable LLMs
作者：: Jacob Levine, Miguel Aenlle, Craig Zilles, Matthew West, Mariana Silva
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。