LLM 分數判定的可靠性:校準信心水平

arXiv - Computers and SocietyRobinson Ferrer, Damla Turgut, Zhongzhou Chen, Shashank Sonkar

本研究探討如何預測大型語言模型(LLM)在自動評分時的準確性,旨在實現選擇性自動化,將高信度預測自動處理,並將不確定案例標記給人工審查。

AI 幫你先抓重點

AI 重點 1

自我報告的信心水平優於其他方法。

滑鼠懸停看 AI 判斷理由
這表示在評估 LLM 評分的可靠性時,簡單地詢問模型自身對答案的信心,比複雜的自洽性投票法更有效率且準確,能大幅降低人工審查的負擔。
AI 重點 2

模型規模對校準效果有顯著影響。

滑鼠懸停看 AI 判斷理由
更大的模型(如 120B 參數)在校準方面表現更好,這意味著在自動評分應用中,選擇較大的 LLM 可以提高評分的可靠性,但需要考慮計算成本。

核心研究發現

  1. 1

    自我報告的信心水平在所有條件下都表現出最佳的校準效果,平均 ECE 為 0.166,優於自洽性投票的 0.229。

  2. 2

    自洽性投票法雖然需要五倍的推論成本,但校準效果卻比自我報告的信心水平差 38%。

  3. 3

    較大的模型(如 GPT-OSS-120B)展現出顯著更好的校準效果,但不同數據集和方法之間存在差異。

  4. 4

    信心水平在各方法中呈現強烈的頂部偏斜,形成一個“信心底線”,實務工作者在設定閾值時需要考慮。

  5. 5

    GPT-OSS-120B 達到最佳校準效果(平均 ECE 0.100)和強烈的辨別能力(平均 AUC 0.668)。

對教育工作者的啟發

本研究建議在部署 LLM 自動評分系統時,優先考慮使用自我報告的信心水平作為評估模型可靠性的指標。同時,應注意“信心底線”效應,設定適當的閾值,將不確定案例交由人工審查。此外,在資源允許的情況下,選擇較大的模型可以提升評分的準確性和可靠性。這有助於在教育領域更有效地運用 LLM,減輕教師負擔,並提升評分效率。

原始文獻資訊

英文標題:
When Can We Trust LLM Graders? Calibrating Confidence for Automated Assessment
作者:
Robinson Ferrer, Damla Turgut, Zhongzhou Chen, Shashank Sonkar
來源:
arXiv - Computers and Society
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。