在真實環境中評估大型語言模型工具使用

arXiv - Human-Computer InteractionPeijie Yu, Wei Liu, Yifan Yang, Jinjian Li, Zelong Zhang, Xiao Feng, Feng Zhang

提出 WildToolBench,揭示現實用戶互動對 LLM 工具使用的挑戰,並顯示目前模型準確率低於 15%。

AI 幫你先抓重點

AI 重點 1

WildToolBench 揭示 LLM 在真實對話中的工具使用瓶頸

滑鼠懸停看 AI 判斷理由
它顯示現有基準測試過度估計 LLM 的表現,迫使研究者設計更貼近實際的評估場景,從而改變未來 LLM 的開發與部署策略。
AI 重點 2

用戶行為的三大特徵(組合任務、隱含意圖、指令轉換)是提升 LLM 代理能力的關鍵方向

滑鼠懸停看 AI 判斷理由
理解這些特徵能指導實務工作者聚焦於上下文推理、動態策略調整與任務編排,這些都是構建穩健教育工具所必須的。

核心研究發現

  1. 1

    WildToolBench 基於真實用戶行為模式,涵蓋組合任務、隱含意圖、指令轉換三大挑戰。

  2. 2

    57 款 LLM 評估結果顯示,最高準確率僅 15%,表明 LLM 在真實環境下的代理能力仍有巨大缺口。

  3. 3

    控制實驗證明,挑戰不在於任務複雜度,而在於用戶行為的“野性”,強調需重新考慮 LLM、用戶與工具的互動。

對教育工作者的啟發

WildToolBench 的發現提醒教育科技實務者,單純提升模型的語言理解能力不足以解決實際應用中的工具使用問題。首先,開發者應在測試階段引入真實用戶互動數據,模擬組合任務、隱含意圖與指令轉換等場景,確保模型能在多輪對話中靈活調整策略。其次,設計工具介面時應支持動態參數調整與任務拆分,讓 LLM 能夠有效編排多個工具呼叫。再次,教育工作者可利用此框架設計以學生實際需求為中心的學習任務,鼓勵學生在真實情境中與 LLM 互動,進而提升自主學習與元認知能力。最後,政策制定者應考慮將此類真實環境評估納入 AI 認證標準,以確保教育應用的安全與效能。

原始文獻資訊

英文標題:
Benchmarking LLM Tool-Use in the Wild
作者:
Peijie Yu, Wei Liu, Yifan Yang, Jinjian Li, Zelong Zhang, Xiao Feng, Feng Zhang
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。