評量重點或方便性?LLM 評分系統對無關因素的穩健性

arXiv - Computers and SocietyCole Walsh, Rodica Ivan

本研究探討了大型語言模型(LLM)為基礎的自動評分系統,在面對與評量構念無關的因素時的穩健性,結果顯示其在一定程度上具有抵抗力。

AI 幫你先抓重點

AI 重點 1

LLM 評分系統對無意義文字和拼寫錯誤具有穩健性。

滑鼠懸停看 AI 判斷理由
這表示 LLM 評分系統在實際應用中,更能抵抗學生提交的非完美答案,降低因技術性錯誤而產生的不公平現象,提升評分的可靠性。
AI 重點 2

重複文本會導致 LLM 評分系統降低分數,與以往研究不同。

滑鼠懸停看 AI 判斷理由
此發現暗示 LLM 評分系統可能更注重內容的原始性,能有效偵測抄襲行為,這對於維護學術誠信具有重要意義,也突顯了 LLM 在評分策略上的獨特性。

核心研究發現

  1. 1

    該評分系統對於在回答中填充無意義文字、拼寫錯誤和寫作技巧的提升具有普遍的穩健性,不會顯著影響評分。

  2. 2

    與以往非 LLM 基礎的評分系統研究結果相反,重複大量文本會導致系統預測的分數降低。

  3. 3

    偏離主題的回答會受到系統的嚴厲懲罰,顯示其對構念相關性的敏感度。

  4. 4

    研究結果支持了在設計時注重構念相關性的 LLM 基礎評分系統的穩健性,為未來發展提供鼓勵。

  5. 5

    此研究針對情境判斷測驗中的短篇、類似論文的開放式題目,評估了 LLM 評分系統的表現。

對教育工作者的啟發

教育工作者在導入 LLM 基礎的自動評分系統時,應注意系統的設計是否注重構念相關性,以確保評分的公平性和準確性。此外,系統應能有效辨識偏離主題的回答,並避免因重複文本而產生誤判。研究結果也提示,在評估自動評分系統時,應考慮其對不同類型構念無關因素的反應,以選擇最適合的系統。

原始文獻資訊

英文標題:
Measuring What Matters -- or What's Convenient?: Robustness of LLM-Based Scoring Systems to Construct-Irrelevant Factors
作者:
Cole Walsh, Rodica Ivan
來源:
arXiv - Computers and Society
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。