自動評分的困境：AI 短文評分的不足與文字弱點分析

arXiv - Computers and SocietyMichael Hardy2026年3月27日

本研究透過元分析揭示了 AI 在短文自動評分方面的表現落後，並探討了其在不同難度題目、模型架構及文字處理上的弱點。

AI 幫你先抓重點

AI 重點 1

AI 模型架構的差異影響評分準確度。

滑鼠懸停看 AI 判斷理由

Decoder-only 模型表現不如 encoder 模型，這對於教育科技開發者至關重要，因為選擇合適的模型架構能顯著提升自動評分的可靠性，並減少與人類評分標準的偏差。

AI 重點 2

AI 評分存在潛在的種族偏見。

滑鼠懸停看 AI 判斷理由

這點至關重要，因為在教育評估中，公平性是核心價值。研究揭示 AI 可能因訓練資料的偏見而產生歧視，提醒教育工作者在使用 AI 評分工具時需保持警惕，並積極尋求解決方案。

教育工作者應謹慎評估 AI 自動評分工具的可靠性與公平性，尤其是在高風險的教育情境中。在導入 AI 評分系統時，應考量模型架構、訓練資料的潛在偏見，並持續監控評分結果，以確保評估的公正性。此外，研究強調了針對 autoregressive 模型進行優化設計的重要性，以提升其在短文評分上的表現。

英文標題：: Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses
作者：: Michael Hardy
來源：: arXiv - Computers and Society
AI 摘要模型：: ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。