BacPrep:部署基於大型語言模型的羅馬尼亞高中畢業考評估平台之經驗教訓

arXiv - Computers and SocietyAdrian-Marius Dumitran, Radu Dita, Angela Liliana Dumitran

本文探討利用 LLM 進行自動化考試評估的初步嘗試,並揭示了 AI 在評分一致性與邏輯準確性上的關鍵挑戰。

AI 幫你先抓重點

AI 重點 1

LLM 在自動評分中存在「評分邏輯與回饋不一致」的風險。

滑鼠懸停看 AI 判斷理由
這點對於教育評估至關重要,因為若 AI 給出的分數與評語矛盾,會嚴重損害學習者的信任感與學習成效,提醒開發者不能僅依賴單一模型的輸出。
AI 重點 2

從「單一模型」轉向「模組化與多策略架構」是 AI 教育應用的必然趨勢。

滑鼠懸停看 AI 判斷理由
研究顯示單一 Prompt 無法應對複雜學科,透過分解任務與多輪取中位數的設計,能有效緩解 LLM 的隨機性與不穩定性,這為開發可靠的 EdTech 工具提供了實務路徑。

核心研究發現

  1. 1

    初步測試顯示 LLM 在多次評分過程中存在不一致性,且在處理分數加總時容易出現算術錯誤。

  2. 2

    當提示詞(Prompt)上下文過長時,模型的表現會出現退化現象,影響評估品質。

  3. 3

    模型難以精準執行特定學科的評分量表權重,且生成的量化分數與定性回饋之間存在內部矛盾。

  4. 4

    研究提出需透過學科級別的提示詞分解、專門化評分器及多輪評分取中位數等策略來優化架構。

對教育工作者的啟發

對於希望導入 AI 評分的教育工作者,應注意以下建議:首先,切勿將 LLM 直接作為最終評分者,應將其定位於提供初步回饋,並輔以人工審核;其次,在設計 AI 評分系統時,應採取「任務分解」策略,將複雜的評分標準拆解為多個子任務,並針對不同學科建立專門的評分邏輯;最後,應建立多輪評分機制(如取中位數)來降低單次生成的隨機性誤差,確保評分的穩定性與公平性。

原始文獻資訊

英文標題:
BacPrep: Lessons from Deploying an LLM-Based Bacalaureat Assessment Platform
作者:
Adrian-Marius Dumitran, Radu Dita, Angela Liliana Dumitran
來源:
arXiv - Computers and Society
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。