GUI-Perturbed:透過領域隨機化揭示 GUI 定位模型的系統性脆弱性

arXiv - Machine LearningYangyue Wang, Harshvardhan Sikka, Yash Mathur, Tony Zhou, Jinu Nyachhyon, Pranav Guruprasad

研究提出 GUI-Perturbed 框架,揭示現有 GUI 定位模型在空間推理與視覺變動下存在嚴重的性能崩潰問題。

AI 幫你先抓重點

AI 重點 1

現有 AI 基準測試的侷限性與誤導性

滑鼠懸停看 AI 判斷理由
目前的評估方式過於靜態,僅測試模型對特定指令的記憶或直接對應,忽略了模型在面對環境變動(如縮放)或複雜邏輯(如空間關係)時的真實能力,這會讓開發者誤以為模型已達標。
AI 重點 2

數據增強策略可能產生的負面影響

滑鼠懸停看 AI 判斷理由
研究顯示錯誤的微調策略(如使用特定增強數據進行 LoRA)可能適得其反,這提醒研究者在提升 AI 魯棒性時,必須更精準地理解模型失效的維度,而非盲目增加數據量。

核心研究發現

  1. 1

    當指令從單純的元素命名轉向需要空間推理時,模型的準確度會大幅下降 27% 至 56%。

  2. 2

    實驗發現 70% 的瀏覽器縮放會導致模型性能出現統計學上的顯著退化。

  3. 3

    使用增強數據進行 rank-8 LoRA 微調,結果反而導致模型性能下降,而非提升。

  4. 4

    現有的基準測試因僅使用單一固定指令與截圖,無法有效檢測模型的魯棒性。

對教育工作者的啟發

對於開發教育輔助工具(如 AI 導師或自動化教學介面)的設計者而言,此研究提供了重要警示:當 AI 需要引導學生操作數位介面時,必須考慮到環境變動(如螢幕解析度、縮放比例)對 AI 理解能力的影響。在設計 AI 驅動的教學系統時,不應僅依賴標準化的指令測試,而應建立包含空間推理與視覺變動的壓力測試機制,以確保 AI 在實際教學情境中的穩定性與可靠性,避免因 AI 理解錯誤而誤導學習者。

原始文獻資訊

英文標題:
GUI-Perturbed: Domain Randomization Reveals Systematic Brittleness in GUI Grounding Models
作者:
Yangyue Wang, Harshvardhan Sikka, Yash Mathur, Tony Zhou, Jinu Nyachhyon, Pranav Guruprasad
來源:
arXiv - Machine Learning
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。