模型適應性工具必要性揭示 LLM 工具使用的「知行差距」

arXiv - Artificial IntelligenceYize Cheng, Chenrui Fan, Mahdi JafariRaviz, Keivan Rezaei, Soheil Feiz

研究發現 LLM 在判斷需要工具與實際執行工具調用之間存在顯著落差,即「知行差距」。

AI 幫你先抓重點

AI 重點 1

區分「認知階段」與「執行階段」對於理解 AI 行為至關重要

滑鼠懸停看 AI 判斷理由
這改變了我們對 AI 錯誤的認知。過去我們可能認為 AI 是「不知道」該用工具,但研究顯示 AI 可能「知道」但「做不到」,這對於診斷 AI 代理(Agent)的失效模式具有決定性意義。
AI 重點 2

工具必要性必須與模型能力邊界掛鉤

滑鼠懸停看 AI 判斷理由
這提醒開發者與研究者,評估 AI 工具使用能力時,不能使用一成不變的標準,必須考慮模型本身的知識邊界,否則會導致對 AI 能力的錯誤評估。

核心研究發現

  1. 1

    研究提出「模型適應性」的工具必要性定義,指出工具需求應基於模型自身的實證能力而非單一標準。

  2. 2

    在算術與事實問答測試中,模型在判斷工具必要性與實際行為之間存在 26.5% 至 54.0% 的不匹配率。

  3. 3

    透過探測隱藏狀態發現,模型內部的認知信號與最終的執行動作信號在模型深層趨於正交。

  4. 4

    研究證實大部分的不匹配發生在從「認知」轉向「行動」的過渡階段,而非認知判斷本身錯誤。

對教育工作者的啟發

對於開發 AI 輔助學習工具的設計者而言,這項研究提供了重要的警示:當我們設計 AI 導師或學習助手時,不能僅依賴模型「判斷」是否需要外部資源(如計算機或百科),因為模型可能存在「知行不一」的問題。在設計 AI 代理(Agent)時,應加強從認知意圖到動作執行的轉換機制,確保 AI 在識別出學習者需求或自身知識不足時,能確實觸發正確的工具調用,而非僅僅停留在「意識到問題」的階段。

原始文獻資訊

英文標題:
Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use
作者:
Yize Cheng, Chenrui Fan, Mahdi JafariRaviz, Keivan Rezaei, Soheil Feiz
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。