AI Agent 如何花錢?分析與預測代理式編碼任務中的 Token 消耗

arXiv - Computers and SocietyLongju Bai, Zhemin Huang, Xingyao Wang, Jiao Sun, Rada Mihalcea, Erik Brynjolfsson, Alex Pentland, Jiaxin Pei

本研究首次系統性分析 AI Agent 在編碼任務中的 Token 消耗模式,發現其成本極高且難以預測。

AI 幫你先抓重點

AI 重點 1

「高投入不等於高產出」的非線性關係

滑鼠懸停看 AI 判斷理由
研究顯示準確度在成本達到一定程度後會進入飽和期,這提醒開發者與使用者,盲目增加模型運算量或上下文長度並不一定能提升任務品質,應更關注資源分配的效率。
AI 重點 2

人類直覺與計算成本之間的巨大鴻溝

滑鼠懸停看 AI 判斷理由
人類專家評估的任務難度與實際 Token 消耗並不一致,這意味著在設計 AI 驅動的工作流時,不能僅依賴人類的直覺來預估運算成本或資源需求。

核心研究發現

  1. 1

    代理式任務的 Token 消耗量比單純的程式碼推理或對話高出 1000 倍,且主要成本由輸入 Token 驅動而非輸出。

  2. 2

    Token 使用量具有高度隨機性,同一任務的不同執行過程消耗差異可達 30 倍,且高消耗並不等同於高準確度。

  3. 3

    不同模型間的 Token 效率差異巨大,例如 Kimi-K2 與 Claude-Sonnet-4.5 的平均消耗量比 GPT-5 高出 150 萬個 Token。

  4. 4

    目前的前沿模型無法準確預測自身的 Token 使用量,普遍存在系統性低估成本的問題,且與實際成本相關性極低。

對教育工作者的啟發

對於開發 AI 輔助學習工具或自動化教學系統的設計者而言,此研究提供了重要的成本警示。首先,在設計需要 AI Agent 進行複雜任務(如自動批改程式碼或引導式專題學習)的系統時,必須預留極大的預算彈性,因為 Token 消耗具有高度不確定性。其次,不應僅追求最強大的模型,而應根據任務需求選擇「Token 效率」最高的模型,以優化成本效益。最後,開發者應建立更精準的成本監控機制,而非依賴模型自身的預測,以避免在自動化教學流程中產生不可控的運算支出。

原始文獻資訊

英文標題:
How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks
作者:
Longju Bai, Zhemin Huang, Xingyao Wang, Jiao Sun, Rada Mihalcea, Erik Brynjolfsson, Alex Pentland, Jiaxin Pei
來源:
arXiv - Computers and Society
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。