LLM 分數判定的可靠性:校準信心水平
arXiv - Computers and SocietyRobinson Ferrer, Damla Turgut, Zhongzhou Chen, Shashank Sonkar
本研究探討如何預測大型語言模型(LLM)在自動評分時的準確性,旨在實現選擇性自動化,將高信度預測自動處理,並將不確定案例標記給人工審查。
AI 幫你先抓重點
AI 重點 1
自我報告的信心水平優於其他方法。
滑鼠懸停看 AI 判斷理由
這表示在評估 LLM 評分的可靠性時,簡單地詢問模型自身對答案的信心,比複雜的自洽性投票法更有效率且準確,能大幅降低人工審查的負擔。
AI 重點 2
模型規模對校準效果有顯著影響。
滑鼠懸停看 AI 判斷理由
更大的模型(如 120B 參數)在校準方面表現更好,這意味著在自動評分應用中,選擇較大的 LLM 可以提高評分的可靠性,但需要考慮計算成本。
核心研究發現
- 1
自我報告的信心水平在所有條件下都表現出最佳的校準效果,平均 ECE 為 0.166,優於自洽性投票的 0.229。
- 2
自洽性投票法雖然需要五倍的推論成本,但校準效果卻比自我報告的信心水平差 38%。
- 3
較大的模型(如 GPT-OSS-120B)展現出顯著更好的校準效果,但不同數據集和方法之間存在差異。
- 4
信心水平在各方法中呈現強烈的頂部偏斜,形成一個“信心底線”,實務工作者在設定閾值時需要考慮。
- 5
GPT-OSS-120B 達到最佳校準效果(平均 ECE 0.100)和強烈的辨別能力(平均 AUC 0.668)。
對教育工作者的啟發
本研究建議在部署 LLM 自動評分系統時,優先考慮使用自我報告的信心水平作為評估模型可靠性的指標。同時,應注意“信心底線”效應,設定適當的閾值,將不確定案例交由人工審查。此外,在資源允許的情況下,選擇較大的模型可以提升評分的準確性和可靠性。這有助於在教育領域更有效地運用 LLM,減輕教師負擔,並提升評分效率。
原始文獻資訊
- 英文標題:
- When Can We Trust LLM Graders? Calibrating Confidence for Automated Assessment
- 作者:
- Robinson Ferrer, Damla Turgut, Zhongzhou Chen, Shashank Sonkar
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。