多模態深度感知方法提升具身參照理解

arXiv - Human-Computer InteractionFevziye Irem Eyiokur, Dogucan Yaman, Haz{\i}m Kemal Ekenel, Alexander Waibel2026年4月30日

提出結合 LLM 擴增、深度圖與深度感知決策模組的 ERU 框架，顯著提升多物件場景中的參照辨識準確度。

AI 幫你先抓重點

AI 重點 1

深度感知決策模組是關鍵突破

滑鼠懸停看 AI 判斷理由

它將視覺深度資訊與語言指令結合，解決多物件歧義，對於需要精確定位的教育互動系統至關重要。

AI 重點 2

LLM 擴增資料可擴大語言多樣性

滑鼠懸停看 AI 判斷理由

透過生成多樣化指令，模型學習更廣泛的語境，提升在實際教學對話中的適應性。

教育工作者可利用此框架於 AR/VR 課程，將深度感知與語音指令結合，提升學生對物件定位的即時互動體驗；開發者可將 LLM 擴增技術應用於教材生成，增加語境多樣性，降低學生對單一說明的依賴。

英文標題：: A Multimodal Depth-Aware Method For Embodied Reference Understanding
作者：: Fevziye Irem Eyiokur, Dogucan Yaman, Haz{\i}m Kemal Ekenel, Alexander Waibel
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。