OmniGUI：多模態智慧手機環境下 GUI 代理人基準測試

arXiv - Human-Computer InteractionFelix Henry, Xiaochen Lin, Jiangyou Zhu, Yangfan, Bingqian Zhang, Min Chen, Shiyu Huang2026年5月20日

提出 OmniGUI 基準，評估多模態手機 GUI 代理人，發現現有模型在同步音訊與視訊任務上表現顯著下降。

AI 幫你先抓重點

AI 重點 1

多模態同步訊號是手機 GUI 代理人性能的關鍵瓶頸。

滑鼠懸停看 AI 判斷理由

現有模型在同步音訊與視訊任務上表現差，說明未來研究需優化跨模態協同與噪音抑制，否則實際應用將受限。

AI 重點 2

跨模態干擾的存在提示代理人設計必須考慮環境噪音的影響。

滑鼠懸停看 AI 判斷理由

若忽略噪音干擾，代理人可能在真實場景中誤判或失敗，影響使用者體驗與安全性。

教育科技設計者可利用 OmniGUI 來測試多模態交互系統的學習效果；在課程設計中加入同步音訊與視訊的練習；針對跨模態干擾開發噪音過濾模組；使用基準數據進行模型迭代與評估。

英文標題：: OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments
作者：: Felix Henry, Xiaochen Lin, Jiangyou Zhu, Yangfan, Bingqian Zhang, Min Chen, Shiyu Huang
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。