何時信任工具?工具整合數學推理的自適應信任校準

arXiv - Computation and LanguageRuotao Xu, Yixin Ji, Yu Luo, Jinpeng Li, Dong Li, Peifeng Li, Juntao Li, Min Zhang

提出自適應工具信任校準框架,提升工具整合推理模型對工具結果的判斷,減少忽略工具錯誤,提升 4.1%–7.5% 效能

AI 幫你先抓重點

AI 重點 1

自適應信任校準讓模型能動態判斷工具可信度,避免過度自信或盲目依賴工具。

滑鼠懸停看 AI 判斷理由
這一洞察揭示了模型在工具整合推理中的元認知缺失,提供了可直接應用於教育工具設計的信任調節機制,能提升學習者對工具的合理使用。
AI 重點 2

實驗證明 ATTC 在不同模型規模與資料集上均有效,顯示其方法可擴展且不需額外訓練成本。

滑鼠懸停看 AI 判斷理由
這表明在實務中可快速部署於現有教育平台,降低實驗門檻,對教育科技產品的可持續發展具有重要意義。

核心研究發現

  1. 1

    研究發現模型在工具結果與自身推理衝突時,往往仍相信自身推理,忽略正確工具結果,稱為「Tool Ignored」問題。

  2. 2

    透過自適應工具信任校準 (ATTC),模型可根據程式碼區塊的置信分數決定是否信任工具,顯著降低「Tool Ignored」現象。

  3. 3

    在多個開源 TIR 模型與多個資料集上實驗,ATTC 將效能提升 4.1% 至 7.5%,證明其普遍適用性。

對教育工作者的啟發

教育工作者可將 ATTC 機制嵌入 AI 辅导系统,透过模型生成的代码置信分数动态决定是否展示工具结果,帮助学生养成对工具的批判性使用习惯。教师可在课堂中设置“工具信任”练习,让学生观察模型在不同置信阈值下的回答差异,强化元认知与自我调节能力。此方法不需额外训练,可直接套用现有 TIR 模型,降低技术门槛,提升教学效果与评估精度。

原始文獻資訊

英文標題:
When to Trust Tools? Adaptive Tool Trust Calibration For Tool-Integrated Math Reasoning
作者:
Ruotao Xu, Yixin Ji, Yu Luo, Jinpeng Li, Dong Li, Peifeng Li, Juntao Li, Min Zhang
來源:
arXiv - Computation and Language
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。