ai assessment edtech learning science llm

LLM 自我一致性與推理強度對自動評分準確度與成本之影響

arXiv - Computers and SocietyScott Frohn2026年5月1日

研究發現增加推理強度能顯著提升 LLM 自動評分的準確度，但增加模型集成數量對效果提升有限。

AI 幫你先抓重點

AI 重點 1

「推理強度」比「模型集成」更具投資價值

滑鼠懸停看 AI 判斷理由

這改變了開發者優化評分系統的策略。過去可能傾向透過多次投票（Ensembling）來降低錯誤，但研究顯示增加單次推理的深度（Reasoning effort）更能有效提升準確度，這對於資源分配與系統設計至關重要。

AI 重點 2

需根據預算與精準度需求進行「效率前沿」配置

滑鼠懸停看 AI 判斷理由

研究揭示了模型性能與成本之間的權衡關係。實務應用時不應盲目追求最強模型，而應根據任務性質（如高精準度需求 vs. 大規模低成本需求）選擇最合適的模型組合與推理設定。

核心研究發現

1
使用溫度採樣（Temperature sampling）進行評分，其準確度顯著優於單次的確定性調用（Deterministic calls）。
2
增加集成規模（Ensemble size，從 1 到 7 次投票）對於提升評分準確度並沒有產生顯著的增益效果。
3
提高模型的推理強度（Reasoning effort）與評分準確度之間呈現顯著的正向線性趨勢，但效益因模型家族而異。
4
在成本效益分析中，Gemini 3.1 Pro 在低推理強度下準確度最高，而 GPT-5.4 Nano 與 Mini 在無推理強度時具備最佳的性價比。

對教育工作者的啟發

對於開發自動化評分工具的教育科技從業者，建議在設計系統時，優先考慮提升模型的推理能力（如使用 Chain-of-Thought 提示詞）而非單純增加重複調用的次數，因為後者對準確度的邊際貢獻較低。此外，在進行大規模學生作業評分時，應採取分層策略：對於需要精準反饋的關鍵評量，使用高推理強度的旗艦模型；對於日常練習或大規模篩選，則選擇具備高性價比的小型模型（如 Nano 或 Mini 系列）以平衡成本與效能。

原始文獻資訊

英文標題：: The Impact of LLM Self-Consistency and Reasoning Effort on Automated Scoring Accuracy and Cost
作者：: Scott Frohn
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。