小型語言模型能否辨識錯誤？基於信心的級聯評分

arXiv - Computers and SocietyTyler Burleigh2026年4月23日

利用小型LM的信心值作為級聯路由，實現低成本高準確度的自動評分系統

AI 幫你先抓重點

AI 重點 1

信心值可作為有效的級聯路由指標，實現成本與準確度的平衡

滑鼠懸停看 AI 判斷理由

此洞察顯示小型LM的自我評估能直接指導資源分配，讓教育工作者在有限算力下仍能達成高準確度評分，改變傳統單一模型評分的做法

AI 重點 2

缺乏信心變異的小型LM無法達成高準確度，凸顯信心判別是級聯系統的關鍵瓶頸

滑鼠懸停看 AI 判斷理由

此觀點提醒研究者在選擇或訓練模型時必須重視信心分佈的多樣性，否則即使模型本身表現優秀也無法在級聯架構中發揮效益

教育工作者可先測試小型LM的信心分佈，挑選AUROC>0.8的模型作為級聯入口；設定閾值時以人類評分難度為參考，確保低成本下仍維持高準確度；若模型信心缺乏變異，則需加強校準或直接使用大模型。

英文標題：: Do Small Language Models Know When They're Wrong? Confidence-Based Cascade Scoring for Educational Assessment
作者：: Tyler Burleigh
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。