ai edtech assessment learning design higher education

VenusBench-Mobile：面向使用者的挑戰性移動 GUI 代理基準

arXiv - Human-Computer InteractionYichen Gong, Zhuohan Cai, Sunhao Dai, Yuqi Zhou, Zhangxuan Gu, Changhua Meng, Shuheng Shen2026年4月9日

提出一個以使用者意圖為導向、涵蓋多樣化任務與細粒度能力診斷的移動 GUI 代理基準，揭示現有代理在真實環境下的巨大性能差距與感知記憶瓶頸。

AI 幫你先抓重點

AI 重點 1

基於使用者意圖設計任務能更真實反映移動使用情境，對代理開發者提供更具實際價值的測試框架。

滑鼠懸停看 AI 判斷理由

傳統基準以單一應用為中心，忽略了多任務、動態環境的挑戰；使用者意圖驅動的設計讓評估結果更能預測真實部署表現，促使開發者聚焦於真正的使用者需求。

AI 重點 2

細粒度能力診斷揭示感知與記憶是瓶頸，提示研究者應優先提升這兩項能力。

滑鼠懸停看 AI 判斷理由

診斷能將失敗拆解為具體能力缺陷，避免僅靠總體分數掩蓋問題；對於教育科技產品設計，明確知道哪個能力需要加強，可直接指導技術迭代與資源分配。

核心研究發現

1
在 VenusBench-Mobile 上測試的先進移動 GUI 代理，其平均成功率遠低於以往基準，顯示新基準更具挑戰性。
2
失敗主要集中於感知與記憶能力不足，這些缺陷在粗粒度評估中被掩蓋。
3
即使是最強代理，在環境變化（如不同裝置、網路狀態）下成功率接近零，證明其脆弱性。

對教育工作者的啟發

教育科技工作者與課程設計者可從 VenusBench-Mobile 的設計理念汲取靈感：首先，將使用者意圖作為任務設計核心，確保測試場景貼近真實使用情境；其次，採用細粒度能力診斷，將失敗拆解為感知、記憶等具體子能力，便於針對性改進；再次，強化代理在不同環境（裝置型號、網路狀態）下的魯棒性，透過多樣化測試資料集驗證穩定性；最後，將診斷結果回饋至產品迭代流程，形成快速循環的改進機制，提升產品在真實部署中的可靠性與使用者滿意度。

原始文獻資訊

英文標題：: VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics
作者：: Yichen Gong, Zhuohan Cai, Sunhao Dai, Yuqi Zhou, Zhangxuan Gu, Changhua Meng, Shuheng Shen
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。