ai edtech assessment srl higher education

LLM 分數判定的可靠性：校準信心水平

arXiv - Computers and SocietyRobinson Ferrer, Damla Turgut, Zhongzhou Chen, Shashank Sonkar2026年4月1日

本研究探討如何預測大型語言模型（LLM）在自動評分時的準確性，旨在實現選擇性自動化，將高信度預測自動處理，並將不確定案例標記給人工審查。

AI 幫你先抓重點

AI 重點 1

自我報告的信心水平優於其他方法。

滑鼠懸停看 AI 判斷理由

這表示在評估 LLM 評分的可靠性時，簡單地詢問模型自身對答案的信心，比複雜的自洽性投票法更有效率且準確，能大幅降低人工審查的負擔。

AI 重點 2

模型規模對校準效果有顯著影響。

滑鼠懸停看 AI 判斷理由

更大的模型（如 120B 參數）在校準方面表現更好，這意味著在自動評分應用中，選擇較大的 LLM 可以提高評分的可靠性，但需要考慮計算成本。

核心研究發現

1
自我報告的信心水平在所有條件下都表現出最佳的校準效果，平均 ECE 為 0.166，優於自洽性投票的 0.229。
2
自洽性投票法雖然需要五倍的推論成本，但校準效果卻比自我報告的信心水平差 38%。
3
較大的模型（如 GPT-OSS-120B）展現出顯著更好的校準效果，但不同數據集和方法之間存在差異。
4
信心水平在各方法中呈現強烈的頂部偏斜，形成一個“信心底線”，實務工作者在設定閾值時需要考慮。
5
GPT-OSS-120B 達到最佳校準效果（平均 ECE 0.100）和強烈的辨別能力（平均 AUC 0.668）。

對教育工作者的啟發

本研究建議在部署 LLM 自動評分系統時，優先考慮使用自我報告的信心水平作為評估模型可靠性的指標。同時，應注意“信心底線”效應，設定適當的閾值，將不確定案例交由人工審查。此外，在資源允許的情況下，選擇較大的模型可以提升評分的準確性和可靠性。這有助於在教育領域更有效地運用 LLM，減輕教師負擔，並提升評分效率。

原始文獻資訊

英文標題：: When Can We Trust LLM Graders? Calibrating Confidence for Automated Assessment
作者：: Robinson Ferrer, Damla Turgut, Zhongzhou Chen, Shashank Sonkar
來源：: arXiv - Computers and Society
AI 摘要模型：: ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。