評量重點或方便性？LLM 評分系統對無關因素的穩健性

arXiv - Computers and SocietyCole Walsh, Rodica Ivan2026年3月27日

本研究探討了大型語言模型（LLM）為基礎的自動評分系統，在面對與評量構念無關的因素時的穩健性，結果顯示其在一定程度上具有抵抗力。

AI 幫你先抓重點

AI 重點 1

LLM 評分系統對無意義文字和拼寫錯誤具有穩健性。

滑鼠懸停看 AI 判斷理由

這表示 LLM 評分系統在實際應用中，更能抵抗學生提交的非完美答案，降低因技術性錯誤而產生的不公平現象，提升評分的可靠性。

AI 重點 2

重複文本會導致 LLM 評分系統降低分數，與以往研究不同。

滑鼠懸停看 AI 判斷理由

此發現暗示 LLM 評分系統可能更注重內容的原始性，能有效偵測抄襲行為，這對於維護學術誠信具有重要意義，也突顯了 LLM 在評分策略上的獨特性。

教育工作者在導入 LLM 基礎的自動評分系統時，應注意系統的設計是否注重構念相關性，以確保評分的公平性和準確性。此外，系統應能有效辨識偏離主題的回答，並避免因重複文本而產生誤判。研究結果也提示，在評估自動評分系統時，應考慮其對不同類型構念無關因素的反應，以選擇最適合的系統。

英文標題：: Measuring What Matters -- or What's Convenient?: Robustness of LLM-Based Scoring Systems to Construct-Irrelevant Factors
作者：: Cole Walsh, Rodica Ivan
來源：: arXiv - Computers and Society
AI 摘要模型：: ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。