ai edtech assessment learning design metacognition

長期任務幻影？診斷代理系統失效的原因與位置

arXiv - Artificial IntelligenceXinyu Jessica Wang, Haoyue Bai, Yiyou Sun, Haorui Wang, Shuibai Zhang, Wenjie Hu, Mya Schroder, Bilge Mutlu, Dawn Song, Robert D Nowak2026年4月15日

提出跨域診斷基準 HORIZON，系統評估 LLM 代理長期任務失效模式並開發可重現的判斷管道。

AI 幫你先抓重點

AI 重點 1

HORIZON 基準提供可量化的長期任務失效指標，促使研究者能針對性改進代理設計。

滑鼠懸停看 AI 判斷理由

它為跨域長期任務提供統一評估標準，填補了先前缺乏客觀指標的空白，使得不同模型與領域的失效模式能被直接比較與診斷，從而加速代理設計的迭代。

AI 重點 2

LLM‑as‑a‑Judge 的高一致性證明大模型可作為自動評估工具，降低人工成本並提升失效分析可重複性。

滑鼠懸停看 AI 判斷理由

此方法展示了利用同一類 LLM 進行失效歸因的可行性，對於需要大量軌跡評估的實驗場景尤為重要，能讓研究者在保持高一致性的同時，節省大量人工標註資源。

核心研究發現

1
HORIZON 基準收集 3100+ 路徑，涵蓋四個代理領域，揭示長期任務中性能隨時間下降的具體模式。
2
針對 GPT‑5 變體與 Claude 系列，長期任務成功率顯著低於短期任務，且失效多發於複雜的交互依賴環節。
3
透過 LLM‑as‑a‑Judge 方案，與人工標註達成 κ=0.61（互評）與 κ=0.84（人機一致），證明可擴展且可靠的失效歸因方法。

對教育工作者的啟發

教育科技開發者可先將長期任務拆分為可量化子任務，利用 HORIZON 基準測試代理在不同領域的表現；若發現性能衰退，則可透過 LLM‑as‑a‑Judge 進行自動失效歸因，快速定位關鍵環節；同時在設計時加入階段性檢查點與回饋機制，提升代理在複雜交互中的穩定性。

原始文獻資訊

英文標題：: The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break
作者：: Xinyu Jessica Wang, Haoyue Bai, Yiyou Sun, Haorui Wang, Shuibai Zhang, Wenjie Hu, Mya Schroder, Bilge Mutlu, Dawn Song, Robert D Nowak
來源：: arXiv - Artificial Intelligence
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。