讀更多,想更多:重新審視 Web Agent 的觀察資料簡化問題

arXiv - Computation and LanguageMasafumi Enomoto, Ryoma Obara, Haochen Zhang, Masafumi Oyamada

研究發現 Web Agent 的觀察表示法應根據模型能力與思考預算進行動態調整,而非一味簡化。

AI 幫你先抓重點

AI 重點 1

打破「資訊越精簡越好」的傳統觀念

滑鼠懸停看 AI 判斷理由
過去開發者傾向於過濾 HTML 以節省 Token,但本研究證明過度簡化會剝奪強大模型利用空間佈局進行推理的能力,這改變了優化 Agent 提示詞(Prompt)的策略方向。
AI 重點 2

模型能力與資訊複雜度的匹配策略

滑鼠懸停看 AI 判斷理由
這項洞察強調了「資源分配」的重要性。開發者不應使用統一的資料處理流程,而應根據所選用的 LLM 等級,動態決定輸入資訊的豐富程度,以達到效能與成本的最佳平衡。

核心研究發現

  1. 1

    觀察表示法的選擇取決於模型能力:低能力模型適合精簡的無障礙樹(Accessibility Trees),而高能力模型則能從詳細的 HTML 中獲益。

  2. 2

    思考 Token 預算會影響效能:增加思考 Token 的數量會進一步放大使用詳細 HTML 表示法對高能力模型的優勢。

  3. 3

    錯誤分析顯示,高能力模型能利用 HTML 的佈局資訊進行更精準的動作定位,而低能力模型在長輸入下容易產生幻覺。

  4. 4

    引入觀察歷史紀錄與使用基於差異(diff-based)的表示法,能有效提升多數模型與設定下的表現。

對教育工作者的啟發

對於開發 AI 輔助學習工具(如自動化教學助理或導師 Agent)的設計者,建議不要盲目追求減少輸入 Token 以節省成本。若使用的是頂尖模型(如 GPT-4o),應保留豐富的網頁結構資訊,讓 AI 能透過佈局理解教學內容;若使用輕量化模型,則應提供精簡後的結構化資訊以避免幻覺。此外,應考慮加入「觀察歷史」並使用 diff 格式,這能讓 AI 在引導學生進行自主學習時,更精準地追蹤學習進度與網頁變化。

原始文獻資訊

英文標題:
Read More, Think More: Revisiting Observation Reduction for Web Agents
作者:
Masafumi Enomoto, Ryoma Obara, Haochen Zhang, Masafumi Oyamada
來源:
arXiv - Computation and Language
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。