ZEBRAARENA:工具增強LLM推理-行動耦合診斷環境

arXiv - Artificial IntelligenceWanjia Zhao, Ludwig Schmidt, James Zou, Vidhisha Balachandran, Lingjiao Chen

提出ZEBRAARENA環境,用於評估工具增強LLM的推理與行動耦合,並揭示現有模型在高難度任務上仍存在顯著效能缺口。

AI 幫你先抓重點

AI 重點 1

ZEBRAARENA的知識最小化設計與唯一解方案

滑鼠懸停看 AI 判斷理由
此設計剔除記憶化與資料污染,使評估聚焦於推理-行動耦合,對於開發更精準的工具使用策略至關重要。
AI 重點 2

模型在工具調用上遠超理論最優的發現

滑鼠懸停看 AI 判斷理由
揭示目前LLM在工具使用效率上的不足,提示需要改進工具選擇與調用策略,對於教育科技中自動化輔助工具設計具有指導意義。
AI 重點 3

高難度任務下GPT‑5與Gemini 2.5 Pro僅60%準確率

滑鼠懸停看 AI 判斷理由
表明即使是最先進模型仍難以處理複雜推理-行動耦合,提醒研究者在設計教育評量時需考慮模型局限。

核心研究發現

  1. 1

    ZEBRAARENA採用程序化生成,難度可控且知識最小化,避免記憶化與資料污染,確保評估純粹推理-行動耦合。

  2. 2

    每個任務僅能透過精準工具調用獲取關鍵資訊,提供可解釋的外部資訊獲取與演繹推理介面。

  3. 3

    環境設計允許唯一解決方案,並提供理論最優查詢次數,實驗顯示實際工具調用遠超理論最優。

  4. 4

    即使是先進模型GPT‑5與Gemini 2.5 Pro,在最難實例上僅達60%準確率,顯示推理-行動耦合仍是挑戰。

  5. 5

    實驗發現模型在工具使用上存在70-270%超額調用,實際效能與理論最優之間持續存在巨大差距。

對教育工作者的啟發

ZEBRAARENA提供可調節難度且唯一解的測試環境,適合設計需學生精準工具使用的課程。教師可用其理論最優查詢次數評估工具使用效率,並針對工具選擇與調用策略給予指導。此環境亦可作為自動化評量工具,協助教師快速檢測學生在推理-行動耦合上的弱點,進而調整教學內容與練習。

原始文獻資訊

英文標題:
ZEBRAARENA: A Diagnostic Simulation Environment for Studying Reasoning-Action Coupling in Tool-Augmented LLMs
作者:
Wanjia Zhao, Ludwig Schmidt, James Zou, Vidhisha Balachandran, Lingjiao Chen
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。