OmniGUI:多模態智慧手機環境下 GUI 代理人基準測試

arXiv - Human-Computer InteractionFelix Henry, Xiaochen Lin, Jiangyou Zhu, Yangfan, Bingqian Zhang, Min Chen, Shiyu Huang

提出 OmniGUI 基準,評估多模態手機 GUI 代理人,發現現有模型在同步音訊與視訊任務上表現顯著下降。

AI 幫你先抓重點

AI 重點 1

多模態同步訊號是手機 GUI 代理人性能的關鍵瓶頸。

滑鼠懸停看 AI 判斷理由
現有模型在同步音訊與視訊任務上表現差,說明未來研究需優化跨模態協同與噪音抑制,否則實際應用將受限。
AI 重點 2

跨模態干擾的存在提示代理人設計必須考慮環境噪音的影響。

滑鼠懸停看 AI 判斷理由
若忽略噪音干擾,代理人可能在真實場景中誤判或失敗,影響使用者體驗與安全性。

核心研究發現

  1. 1

    OmniGUI 數據集包含 709 個專家示範的手機應用場景,涵蓋 29 種 App,共 2,579 個行動步驟,並對每一步驟進行多模態依賴層級標註。

  2. 2

    基線 omni‑modal 模型在視覺靜態任務上表現良好,但在需要同步音訊與視訊訊號的任務中,行動預測準確率顯著下降。

  3. 3

    消融實驗顯示,跨模態干擾是主要瓶頸,尤其在處理與任務無關的環境噪音時,模型性能被嚴重削弱。

對教育工作者的啟發

教育科技設計者可利用 OmniGUI 來測試多模態交互系統的學習效果;在課程設計中加入同步音訊與視訊的練習;針對跨模態干擾開發噪音過濾模組;使用基準數據進行模型迭代與評估。

原始文獻資訊

英文標題:
OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments
作者:
Felix Henry, Xiaochen Lin, Jiangyou Zhu, Yangfan, Bingqian Zhang, Min Chen, Shiyu Huang
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。