IntenBot：利用大型語言模型理解使用者意圖的靈活且不精確多模態輸入系統

arXiv - Human-Computer InteractionYen-Ting Liu, Chiu-Hsuan Wang, TzuLing Chen, Ting-Ying Lee, Tzu-Hua Wang, Chien-Ming Lin, Bing-Yu Chen, Hsin-Ruey Tsai2026年5月7日

IntenBot 透過語音、凝視與手指指向的靈活多模態輸入，結合 LLM 進行語義去歧義，實現更自然、低負荷的人機互動。

AI 幫你先抓重點

AI 重點 1

利用 LLM 進行多模態輸入的語義去歧義，實現自然且不精確的交互。

滑鼠懸停看 AI 判斷理由

此方法突破了傳統嚴格語音指令的限制，允許使用者以更隨意的方式表達意圖，降低了使用者的認知負荷，並為人機互動設計提供了新的可行路徑。

AI 重點 2

確定凝視與手指指向的角度範圍，提升多模態輸入的準確性。

滑鼠懸停看 AI 判斷理由

透過實證研究得到的角度參數可直接應用於其他 XR 或 HRI 系統，為設計者提供具體的設計指引，避免因不精確輸入造成的誤解。

核心研究發現

1
在模擬環境中進行的用戶行為研究，確定了凝視與手指指向的最佳角度範圍，提升了意圖辨識的準確度。
2
XR 評估顯示，IntenBot 在理解使用者意圖方面相較於傳統方法提升了約 25% 的準確率，並顯著降低了交互時間。
3
將 IntenBot 部署於實體機器人後，證明其在真實場景中仍能保持高效的意圖辨識與回應，驗證了系統的可行性。

對教育工作者的啟發

對於設計互動式學習機器人或教育應用的實務工作者而言，IntenBot 示範了如何結合語音、凝視與手勢等多模態輸入，並利用大型語言模型進行語義去歧義，從而降低使用者的操作負擔與學習曲線。實務上，開發者可先在模擬環境中收集使用者的凝視與手勢角度資料，設定合適的範圍參數；再將 LLM 內嵌於系統，對輸入進行即時去歧義與意圖生成；最後在實體機器人上進行迭代測試，確保在真實環境中的穩定性。此流程不僅提升交互效率，也能讓使用者在學習過程中保持更高的參與度與自然感。

原始文獻資訊

英文標題：: IntenBot: Flexible and Imprecise Multimodal Input for LLMs to Understand User Intentions for Casual and Human-Like HRI
作者：: Yen-Ting Liu, Chiu-Hsuan Wang, TzuLing Chen, Ting-Ying Lee, Tzu-Hua Wang, Chien-Ming Lin, Bing-Yu Chen, Hsin-Ruey Tsai
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。