ai human-computer interaction robustness assessment edtech

GUI-Perturbed：透過領域隨機化揭示 GUI 定位模型的系統性脆弱性

arXiv - Machine LearningYangyue Wang, Harshvardhan Sikka, Yash Mathur, Tony Zhou, Jinu Nyachhyon, Pranav Guruprasad2026年4月18日

研究提出 GUI-Perturbed 框架，揭示現有 GUI 定位模型在空間推理與視覺變動下存在嚴重的性能崩潰問題。

AI 幫你先抓重點

AI 重點 1

現有 AI 基準測試的侷限性與誤導性

滑鼠懸停看 AI 判斷理由

目前的評估方式過於靜態，僅測試模型對特定指令的記憶或直接對應，忽略了模型在面對環境變動（如縮放）或複雜邏輯（如空間關係）時的真實能力，這會讓開發者誤以為模型已達標。

AI 重點 2

數據增強策略可能產生的負面影響

滑鼠懸停看 AI 判斷理由

研究顯示錯誤的微調策略（如使用特定增強數據進行 LoRA）可能適得其反，這提醒研究者在提升 AI 魯棒性時，必須更精準地理解模型失效的維度，而非盲目增加數據量。

核心研究發現

1
當指令從單純的元素命名轉向需要空間推理時，模型的準確度會大幅下降 27% 至 56%。
2
實驗發現 70% 的瀏覽器縮放會導致模型性能出現統計學上的顯著退化。
3
使用增強數據進行 rank-8 LoRA 微調，結果反而導致模型性能下降，而非提升。
4
現有的基準測試因僅使用單一固定指令與截圖，無法有效檢測模型的魯棒性。

對教育工作者的啟發

對於開發教育輔助工具（如 AI 導師或自動化教學介面）的設計者而言，此研究提供了重要警示：當 AI 需要引導學生操作數位介面時，必須考慮到環境變動（如螢幕解析度、縮放比例）對 AI 理解能力的影響。在設計 AI 驅動的教學系統時，不應僅依賴標準化的指令測試，而應建立包含空間推理與視覺變動的壓力測試機制，以確保 AI 在實際教學情境中的穩定性與可靠性，避免因 AI 理解錯誤而誤導學習者。

原始文獻資訊

英文標題：: GUI-Perturbed: Domain Randomization Reveals Systematic Brittleness in GUI Grounding Models
作者：: Yangyue Wang, Harshvardhan Sikka, Yash Mathur, Tony Zhou, Jinu Nyachhyon, Pranav Guruprasad
來源：: arXiv - Machine Learning
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。