CRAFT-GUI:基於課程化的 GUI 任務代理
arXiv - Human-Computer InteractionSongqin Nong, Xiaoxuan Tang, Jingxuan Xu, Sheng Zhou, Jianfeng Chen, Tao Jiang, Wenhao Xu
提出 CRAFT-GUI 框架,透過課程化學習與細緻獎勵提升 GUI 任務代理效能
AI 幫你先抓重點
AI 重點 1
課程化學習框架 GRPO 的創新應用
滑鼠懸停看 AI 判斷理由
它解決了先前 RL 方法忽略任務難度變化的問題,使代理能根據不同難度調整學習策略,提升整體效能。
AI 重點 2
細緻獎勵函數結合規則與模型評估
滑鼠懸停看 AI 判斷理由
提供多元且精細的回饋訊號,避免粗糙獎勵造成的策略更新低效,進而加速學習收斂。
核心研究發現
- 1
CRAFT-GUI 使用 Group Relative Policy Optimization (GRPO) 以課程化方式處理不同難度的 GUI 路徑,提升學習效率。
- 2
針對每個任務設計細緻獎勵函數,結合規則式訊號與模型評估,提供更豐富的反饋。
- 3
在 Android Control 公開基準上,CRAFT-GUI 相較於先前最佳方法提升 5.6% 的表現。
- 4
在內部線上基準上,提升 10.3%,顯示其在多樣化 GUI 環境中的優勢。
- 5
實驗證明課程化學習與細緻獎勵的結合能顯著改善自動化 GUI 任務執行的策略更新。
對教育工作者的啟發
對於開發自動化 GUI 教學工具的教育科技工作者,CRAFT-GUI 示範了課程化強化學習與細緻獎勵結合的有效性。實務上可先將任務分層設計,針對不同難度設定專屬獎勵;同時結合規則式與模型評估,提供多元回饋,提升代理學習效率。評估時應使用多樣化基準,確保模型在實際環境中的泛化能力。
原始文獻資訊
- 英文標題:
- CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks
- 作者:
- Songqin Nong, Xiaoxuan Tang, Jingxuan Xu, Sheng Zhou, Jianfeng Chen, Tao Jiang, Wenhao Xu
- 來源:
- arXiv - Human-Computer Interaction
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。