ai assessment programming education edtech learning science

探索大型語言模型在程式教育中自動評估學生自我解釋的有效性

arXiv - Human-Computer InteractionArun-Balajiee Lekshmi-Narayanan, Mohammad Hassany, Peter Brusilovsky2026年5月22日

本研究比較了大型語言模型與傳統語義相似度方法在自動評分學生程式碼解釋任務中的表現。

AI 幫你先抓重點

AI 重點 1

評估技術從「語義匹配」轉向「邏輯理解」的範式轉移

滑鼠懸停看 AI 判斷理由

傳統方法僅依賴學生回答與標準答案的相似程度，可能忽略了邏輯正確但表達不同的解釋；LLM 的引入代表評分標準可能從單純的文字比對，進化到對概念理解深度的判斷。

AI 重點 2

高品質領域特定數據集對於自動評分研究的關鍵性

滑鼠懸停看 AI 判斷理由

研究強調了平衡類別分佈與領域特定標籤的重要性，這提醒開發者在設計 AI 評分系統時，數據的質量與專業領域的針對性，比模型規模更直接影響評分準確度。

核心研究發現

1
研究探討了將「範例學習」與「自我解釋」結合以提升學習成效的潛力，並指出評估解釋正確性的難度。
2
目前主流的自動評分方法是計算學生解釋與專家解釋之間的語義相似度。
3
研究針對大型語言模型（LLM）與語義相似度方法進行了嚴謹的二元分類任務比較，以驗證 LLM 在自動評分上的優勢。

對教育工作者的啟發

對於設計程式教育課程的設計者，建議在教學中使用「範例學習」並要求學生進行「自我解釋」，以強化學習深度。在實務導入自動化評分系統時，不應僅依賴傳統的相似度演算法，應考慮整合 LLM 技術來捕捉學生解釋中的邏輯細節。此外，開發者在建立評分模型時，必須確保訓練數據包含足夠的領域知識與平衡的標籤分佈，以避免評分偏差。

原始文獻資訊

英文標題：: Exploring the Effectiveness of Using LLMs for Automated Assessment of Student Self Explanations in Programming Education
作者：: Arun-Balajiee Lekshmi-Narayanan, Mohammad Hassany, Peter Brusilovsky
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。