長期任務幻影?診斷代理系統失效的原因與位置

arXiv - Artificial IntelligenceXinyu Jessica Wang, Haoyue Bai, Yiyou Sun, Haorui Wang, Shuibai Zhang, Wenjie Hu, Mya Schroder, Bilge Mutlu, Dawn Song, Robert D Nowak

提出跨域診斷基準 HORIZON,系統評估 LLM 代理長期任務失效模式並開發可重現的判斷管道。

AI 幫你先抓重點

AI 重點 1

HORIZON 基準提供可量化的長期任務失效指標,促使研究者能針對性改進代理設計。

滑鼠懸停看 AI 判斷理由
它為跨域長期任務提供統一評估標準,填補了先前缺乏客觀指標的空白,使得不同模型與領域的失效模式能被直接比較與診斷,從而加速代理設計的迭代。
AI 重點 2

LLM‑as‑a‑Judge 的高一致性證明大模型可作為自動評估工具,降低人工成本並提升失效分析可重複性。

滑鼠懸停看 AI 判斷理由
此方法展示了利用同一類 LLM 進行失效歸因的可行性,對於需要大量軌跡評估的實驗場景尤為重要,能讓研究者在保持高一致性的同時,節省大量人工標註資源。

核心研究發現

  1. 1

    HORIZON 基準收集 3100+ 路徑,涵蓋四個代理領域,揭示長期任務中性能隨時間下降的具體模式。

  2. 2

    針對 GPT‑5 變體與 Claude 系列,長期任務成功率顯著低於短期任務,且失效多發於複雜的交互依賴環節。

  3. 3

    透過 LLM‑as‑a‑Judge 方案,與人工標註達成 κ=0.61(互評)與 κ=0.84(人機一致),證明可擴展且可靠的失效歸因方法。

對教育工作者的啟發

教育科技開發者可先將長期任務拆分為可量化子任務,利用 HORIZON 基準測試代理在不同領域的表現;若發現性能衰退,則可透過 LLM‑as‑a‑Judge 進行自動失效歸因,快速定位關鍵環節;同時在設計時加入階段性檢查點與回饋機制,提升代理在複雜交互中的穩定性。

原始文獻資訊

英文標題:
The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break
作者:
Xinyu Jessica Wang, Haoyue Bai, Yiyou Sun, Haorui Wang, Shuibai Zhang, Wenjie Hu, Mya Schroder, Bilge Mutlu, Dawn Song, Robert D Nowak
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。