超越對話與點擊:透過即時介面轉換提供原位輔助的 GUI 代理程式

arXiv - Human-Computer InteractionPan Hao, Rishi Selvakumaran, Jacob Sun, Qianwen Wang

提出一種透過瀏覽器層級 DOM 操作,直接在現有網頁介面進行即時重構以提供輔助的新型 GUI 代理技術。

AI 幫你先抓重點

AI 重點 1

從「旁觀式輔助」轉向「主動式介面重構」的範式轉移。

滑鼠懸停看 AI 判斷理由
傳統 AI 助手多透過對話框提供建議,使用者仍需自行操作;此研究展示了 AI 能直接介入並修改介面結構,將輔助融入操作流程,大幅降低認知負荷。
AI 重點 2

利用輕量級 DOM 干預實現非侵入式的系統升級。

滑鼠懸停看 AI 判斷理由
這項技術不需要重新開發應用程式或修改底層邏輯,僅透過瀏覽器層級的介入即可優化介面,為教育軟體在不更動原始碼的情況下進行即時教學設計提供了可能。

核心研究發現

  1. 1

    開發出 DOMSteer Chrome 擴充功能,能根據使用者需求與介面上下文,執行可逆的 DOM 操作,如工具提示、控制項高亮與佈局重組。

  2. 2

    量化評估顯示,在兩個複雜的視覺化介面上,DOMSteer 能提供可靠且高效的原位(in-situ)輔助服務。

  3. 3

    與基準模型 ChatGPTAtlas 的對照研究證實,DOMSteer 在可用性與輔助效果上具有顯著優勢。

對教育工作者的啟發

對於教育科技設計者而言,這項技術提供了「動態教學支架(Scaffolding)」的新思路。在數位學習平台中,當學生在使用複雜的實驗模擬軟體或數據分析工具遇到困難時,AI 不僅能透過對話解釋概念,更能直接「點亮」正確的操作按鈕、隱藏干擾資訊或重新排列介面佈局,以符合學生當下的認知需求。這種「原位輔助」能減少學生在學習工具操作上的挫折感,讓學習者能將更多認知資源集中在核心學習任務上,而非工具的操作邏輯。

原始文獻資訊

英文標題:
Beyond Chat and Clicks: GUI Agents for In-Situ Assistance via Live Interface Transformation
作者:
Pan Hao, Rishi Selvakumaran, Jacob Sun, Qianwen Wang
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。