超越評分準確度:探討助教與大型語言模型的對齊

arXiv - Computers and SocietyMatthijs Jansen op de Haar, Nacir Bouali, Faizan Ahmed

本文證明開源大型語言模型可在 UML 類圖評分中達到高準確度,並提出最佳模型組合可逼近助教評分。

AI 幫你先抓重點

AI 重點 1

逐項評分標準的對齊度是評估自動化評分可信度的關鍵指標

滑鼠懸停看 AI 判斷理由
文章指出單一標準的高準確率與助教一致性能直接反映模型對專業評分規則的理解,對於建立信任與調整模型至關重要。
AI 重點 2

最佳模型組合策略展示了多模型融合可逼近人類評分的潛力

滑鼠懸停看 AI 判斷理由
透過選擇每個標準表現最佳的 LLM,研究證明即使單一模型不足以完全取代助教,融合後的評分仍能達到近似水平,為實務部署提供可行方案。

核心研究發現

  1. 1

    開源 LLM 在單一評分標準上達到最高 88.56% 的準確率,顯示其在細節評分上的可靠性。

  2. 2

    與助教評分的皮爾森相關係數最高達 0.78,證明兩者在整體評分趨勢上高度一致。

  3. 3

    透過逐項標準比較,研究揭示 LLM 在某些設計規則(如關聯性、封裝性)上易出現偏差。

  4. 4

    提出的評分流程允許獨立評估並直接對比助教與模型的評分差異,為自動化評分提供可驗證框架。

  5. 5

    將六種 LLM 的最佳表現按標準組合成「最佳模型」,其整體表現接近助教,顯示多模型融合可提升評分品質。

對教育工作者的啟發

研究顯示,使用開源 LLM 進行 UML 評分不僅成本低、透明度高,且可透過逐項標準分析快速定位模型偏差。實務上,教師可先採用單一 LLM 進行初步評分,再利用最佳模型組合進行二次校正,確保評分公平與一致。此流程亦可擴展至其他軟體設計評分或程式碼品質評估,為課程自動化與大規模評分提供可落地的技術路徑。

原始文獻資訊

英文標題:
Beyond Grading Accuracy: Exploring Alignment of TAs and LLMs
作者:
Matthijs Jansen op de Haar, Nacir Bouali, Faizan Ahmed
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。