ZEBRAARENA：工具增強LLM推理-行動耦合診斷環境

arXiv - Artificial IntelligenceWanjia Zhao, Ludwig Schmidt, James Zou, Vidhisha Balachandran, Lingjiao Chen2026年3月21日

提出ZEBRAARENA環境，用於評估工具增強LLM的推理與行動耦合，並揭示現有模型在高難度任務上仍存在顯著效能缺口。

AI 幫你先抓重點

AI 重點 1

ZEBRAARENA的知識最小化設計與唯一解方案

滑鼠懸停看 AI 判斷理由

此設計剔除記憶化與資料污染，使評估聚焦於推理-行動耦合，對於開發更精準的工具使用策略至關重要。

AI 重點 2

模型在工具調用上遠超理論最優的發現

滑鼠懸停看 AI 判斷理由

揭示目前LLM在工具使用效率上的不足，提示需要改進工具選擇與調用策略，對於教育科技中自動化輔助工具設計具有指導意義。

AI 重點 3

高難度任務下GPT‑5與Gemini 2.5 Pro僅60%準確率

滑鼠懸停看 AI 判斷理由

表明即使是最先進模型仍難以處理複雜推理-行動耦合，提醒研究者在設計教育評量時需考慮模型局限。

ZEBRAARENA提供可調節難度且唯一解的測試環境，適合設計需學生精準工具使用的課程。教師可用其理論最優查詢次數評估工具使用效率，並針對工具選擇與調用策略給予指導。此環境亦可作為自動化評量工具，協助教師快速檢測學生在推理-行動耦合上的弱點，進而調整教學內容與練習。

英文標題：: ZEBRAARENA: A Diagnostic Simulation Environment for Studying Reasoning-Action Coupling in Tool-Augmented LLMs
作者：: Wanjia Zhao, Ludwig Schmidt, James Zou, Vidhisha Balachandran, Lingjiao Chen
來源：: arXiv - Artificial Intelligence
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。