模型適應性工具必要性揭示 LLM 工具使用的「知行差距」

arXiv - Artificial IntelligenceYize Cheng, Chenrui Fan, Mahdi JafariRaviz, Keivan Rezaei, Soheil Feiz2026年5月16日

研究發現 LLM 在判斷需要工具與實際執行工具調用之間存在顯著落差，即「知行差距」。

AI 幫你先抓重點

AI 重點 1

區分「認知階段」與「執行階段」對於理解 AI 行為至關重要

滑鼠懸停看 AI 判斷理由

這改變了我們對 AI 錯誤的認知。過去我們可能認為 AI 是「不知道」該用工具，但研究顯示 AI 可能「知道」但「做不到」，這對於診斷 AI 代理（Agent）的失效模式具有決定性意義。

AI 重點 2

工具必要性必須與模型能力邊界掛鉤

滑鼠懸停看 AI 判斷理由

這提醒開發者與研究者，評估 AI 工具使用能力時，不能使用一成不變的標準，必須考慮模型本身的知識邊界，否則會導致對 AI 能力的錯誤評估。

核心研究發現

1
研究提出「模型適應性」的工具必要性定義，指出工具需求應基於模型自身的實證能力而非單一標準。
2
在算術與事實問答測試中，模型在判斷工具必要性與實際行為之間存在 26.5% 至 54.0% 的不匹配率。
3
透過探測隱藏狀態發現，模型內部的認知信號與最終的執行動作信號在模型深層趨於正交。
4
研究證實大部分的不匹配發生在從「認知」轉向「行動」的過渡階段，而非認知判斷本身錯誤。

對教育工作者的啟發

對於開發 AI 輔助學習工具的設計者而言，這項研究提供了重要的警示：當我們設計 AI 導師或學習助手時，不能僅依賴模型「判斷」是否需要外部資源（如計算機或百科），因為模型可能存在「知行不一」的問題。在設計 AI 代理（Agent）時，應加強從認知意圖到動作執行的轉換機制，確保 AI 在識別出學習者需求或自身知識不足時，能確實觸發正確的工具調用，而非僅僅停留在「意識到問題」的階段。

原始文獻資訊

英文標題：: Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use
作者：: Yize Cheng, Chenrui Fan, Mahdi JafariRaviz, Keivan Rezaei, Soheil Feiz
來源：: arXiv - Artificial Intelligence
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。