UIGaze:VLM 能否精準模擬人類 UI 眼動?

arXiv - Human-Computer InteractionMin Song, Yoonseong Lee, Yeonhu Seo

研究評估 VLM 在 UI 眼動預測上的準確度,發現其在不同 UI 類型與長時間觀察下能中度模擬人類視覺注意。

AI 幫你先抓重點

AI 重點 1

VLM 在 UI 眼動預測上已具備可用性,能協助自動化 UI 設計評估。

滑鼠懸停看 AI 判斷理由
此洞察顯示 VLM 可作為快速評估工具,減少人工眼動實驗成本,對 UI/UX 研究與教育實務皆具實用價值。
AI 重點 2

視覺注意的時間依賴性揭示了人機互動設計需考慮長時間使用者行為。

滑鼠懸停看 AI 判斷理由
了解長時間觀察下的注意模式,可指導設計更符合使用者探索需求,提升學習介面可用性與學習成效。

核心研究發現

  1. 1

    在1,980張 UI 截圖上,九種 VLM 在零樣本坐標預測中,與人類眼動的相關係數(CC)平均約0.4,SIM約0.3,KL距離中等,顯示中度一致性。

  2. 2

    不同 UI 類型間相似度差異顯著,桌面與網頁的 CC 值較高,而手機與海報則較低。

  3. 3

    觀察時間延長時,VLM 的預測與實際眼動相符度提升,說明其更擬合探索性注視而非首要注視。

對教育工作者的啟發

教育科技產品設計者可利用 VLM 生成的注意力熱圖,快速檢測介面元素的可見度與吸引力,尤其在長時間學習場景下調整資訊呈現順序;同時,將 VLM 與實際眼動結合,可作為迭代設計的評估指標,降低實驗成本並提升設計品質。

原始文獻資訊

英文標題:
UIGaze: How Closely Can VLMs Approximate Human Visual Attention on User Interfaces?
作者:
Min Song, Yoonseong Lee, Yeonhu Seo
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。