ai assessment edtech learning design higher education

BacPrep：部署基於大型語言模型的羅馬尼亞高中畢業考評估平台之經驗教訓

arXiv - Computers and SocietyAdrian-Marius Dumitran, Radu Dita, Angela Liliana Dumitran2026年4月10日

本文探討利用 LLM 進行自動化考試評估的初步嘗試，並揭示了 AI 在評分一致性與邏輯準確性上的關鍵挑戰。

AI 幫你先抓重點

AI 重點 1

LLM 在自動評分中存在「評分邏輯與回饋不一致」的風險。

滑鼠懸停看 AI 判斷理由

這點對於教育評估至關重要，因為若 AI 給出的分數與評語矛盾，會嚴重損害學習者的信任感與學習成效，提醒開發者不能僅依賴單一模型的輸出。

AI 重點 2

從「單一模型」轉向「模組化與多策略架構」是 AI 教育應用的必然趨勢。

滑鼠懸停看 AI 判斷理由

研究顯示單一 Prompt 無法應對複雜學科，透過分解任務與多輪取中位數的設計，能有效緩解 LLM 的隨機性與不穩定性，這為開發可靠的 EdTech 工具提供了實務路徑。

核心研究發現

1
初步測試顯示 LLM 在多次評分過程中存在不一致性，且在處理分數加總時容易出現算術錯誤。
2
當提示詞（Prompt）上下文過長時，模型的表現會出現退化現象，影響評估品質。
3
模型難以精準執行特定學科的評分量表權重，且生成的量化分數與定性回饋之間存在內部矛盾。
4
研究提出需透過學科級別的提示詞分解、專門化評分器及多輪評分取中位數等策略來優化架構。

對教育工作者的啟發

對於希望導入 AI 評分的教育工作者，應注意以下建議：首先，切勿將 LLM 直接作為最終評分者，應將其定位於提供初步回饋，並輔以人工審核；其次，在設計 AI 評分系統時，應採取「任務分解」策略，將複雜的評分標準拆解為多個子任務，並針對不同學科建立專門的評分邏輯；最後，應建立多輪評分機制（如取中位數）來降低單次生成的隨機性誤差，確保評分的穩定性與公平性。

原始文獻資訊

英文標題：: BacPrep: Lessons from Deploying an LLM-Based Bacalaureat Assessment Platform
作者：: Adrian-Marius Dumitran, Radu Dita, Angela Liliana Dumitran
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。