長期任務幻影?診斷代理系統失效的原因與位置
arXiv - Artificial IntelligenceXinyu Jessica Wang, Haoyue Bai, Yiyou Sun, Haorui Wang, Shuibai Zhang, Wenjie Hu, Mya Schroder, Bilge Mutlu, Dawn Song, Robert D Nowak
提出跨域診斷基準 HORIZON,系統評估 LLM 代理長期任務失效模式並開發可重現的判斷管道。
AI 幫你先抓重點
AI 重點 1
HORIZON 基準提供可量化的長期任務失效指標,促使研究者能針對性改進代理設計。
滑鼠懸停看 AI 判斷理由
它為跨域長期任務提供統一評估標準,填補了先前缺乏客觀指標的空白,使得不同模型與領域的失效模式能被直接比較與診斷,從而加速代理設計的迭代。
AI 重點 2
LLM‑as‑a‑Judge 的高一致性證明大模型可作為自動評估工具,降低人工成本並提升失效分析可重複性。
滑鼠懸停看 AI 判斷理由
此方法展示了利用同一類 LLM 進行失效歸因的可行性,對於需要大量軌跡評估的實驗場景尤為重要,能讓研究者在保持高一致性的同時,節省大量人工標註資源。
核心研究發現
- 1
HORIZON 基準收集 3100+ 路徑,涵蓋四個代理領域,揭示長期任務中性能隨時間下降的具體模式。
- 2
針對 GPT‑5 變體與 Claude 系列,長期任務成功率顯著低於短期任務,且失效多發於複雜的交互依賴環節。
- 3
透過 LLM‑as‑a‑Judge 方案,與人工標註達成 κ=0.61(互評)與 κ=0.84(人機一致),證明可擴展且可靠的失效歸因方法。
對教育工作者的啟發
教育科技開發者可先將長期任務拆分為可量化子任務,利用 HORIZON 基準測試代理在不同領域的表現;若發現性能衰退,則可透過 LLM‑as‑a‑Judge 進行自動失效歸因,快速定位關鍵環節;同時在設計時加入階段性檢查點與回饋機制,提升代理在複雜交互中的穩定性。
原始文獻資訊
- 英文標題:
- The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break
- 作者:
- Xinyu Jessica Wang, Haoyue Bai, Yiyou Sun, Haorui Wang, Shuibai Zhang, Wenjie Hu, Mya Schroder, Bilge Mutlu, Dawn Song, Robert D Nowak
- 來源:
- arXiv - Artificial Intelligence
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。