ai edtech multimodal learning science human-computer interaction

從注視到引導：利用多模態注視感知 AI 助手解讀並適應用戶認知需求

arXiv - Human-Computer InteractionValdemar Danry, Javier Hernandez, Andrew Wilson, Pattie Maes, Judith Amores2026年4月10日

研究開發了一種結合第一人稱視角與注視點數據的 AI 助手，能精準識別學習困難並提供個性化引導。

AI 幫你先抓重點

AI 重點 1

從「被動回答」轉向「主動感知」的互動範式轉變

滑鼠懸停看 AI 判斷理由

傳統 AI 依賴用戶輸入指令，而此研究展示了透過生理行為（注視點）獲取隱性上下文的可能性，這能讓 AI 從單純的問答工具進化為能預判學習者認知負載的數位導師。

AI 重點 2

多模態數據在捕捉學習者認知狀態中的關鍵作用

滑鼠懸停看 AI 判斷理由

單純的文本無法反映學習者「在哪裡卡住」的過程。結合第一人稱視角與注視數據，能填補行為脈絡的空白，這對於開發能支持自主學習（SRL）的智能化系統至關重要。

核心研究發現

1
與僅限文字的 LLM 相比，注視感知助手在評估用戶閱讀行為時，被評定為更準確且具備高度個性化。
2
使用注視感知 AI 助手能顯著提升使用者對資訊的記憶與回想能力。
3
使用者與注視感知助手互動時使用的字數顯著減少，顯示出更高效的溝通與互動模式。
4
定性研究顯示，雖然使用者感知到理解力的提升，但當 AI 對注視行為的解讀錯誤時，仍會面臨挑戰。

對教育工作者的啟發

教育科技設計者應考慮整合多模態感測器（如眼動追蹤或第一人稱視角鏡頭），以捕捉學習者的非語言行為。這能讓 AI 系統在學習者遇到困難的瞬間主動介入，而非等待學習者發出求助指令。然而，開發者必須高度重視「解讀準確性」的問題，因為錯誤的行為解讀可能導致干擾，建議在系統設計中加入確認機制，確保 AI 的引導與學習者的實際認知需求相符，從而實現更精準的適應性學習環境。

原始文獻資訊

英文標題：: From Gaze to Guidance: Interpreting and Adapting to Users' Cognitive Needs with Multimodal Gaze-Aware AI Assistants
作者：: Valdemar Danry, Javier Hernandez, Andrew Wilson, Pattie Maes, Judith Amores
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。