IntenBot:利用大型語言模型理解使用者意圖的靈活且不精確多模態輸入系統

arXiv - Human-Computer InteractionYen-Ting Liu, Chiu-Hsuan Wang, TzuLing Chen, Ting-Ying Lee, Tzu-Hua Wang, Chien-Ming Lin, Bing-Yu Chen, Hsin-Ruey Tsai

IntenBot 透過語音、凝視與手指指向的靈活多模態輸入,結合 LLM 進行語義去歧義,實現更自然、低負荷的人機互動。

AI 幫你先抓重點

AI 重點 1

利用 LLM 進行多模態輸入的語義去歧義,實現自然且不精確的交互。

滑鼠懸停看 AI 判斷理由
此方法突破了傳統嚴格語音指令的限制,允許使用者以更隨意的方式表達意圖,降低了使用者的認知負荷,並為人機互動設計提供了新的可行路徑。
AI 重點 2

確定凝視與手指指向的角度範圍,提升多模態輸入的準確性。

滑鼠懸停看 AI 判斷理由
透過實證研究得到的角度參數可直接應用於其他 XR 或 HRI 系統,為設計者提供具體的設計指引,避免因不精確輸入造成的誤解。

核心研究發現

  1. 1

    在模擬環境中進行的用戶行為研究,確定了凝視與手指指向的最佳角度範圍,提升了意圖辨識的準確度。

  2. 2

    XR 評估顯示,IntenBot 在理解使用者意圖方面相較於傳統方法提升了約 25% 的準確率,並顯著降低了交互時間。

  3. 3

    將 IntenBot 部署於實體機器人後,證明其在真實場景中仍能保持高效的意圖辨識與回應,驗證了系統的可行性。

對教育工作者的啟發

對於設計互動式學習機器人或教育應用的實務工作者而言,IntenBot 示範了如何結合語音、凝視與手勢等多模態輸入,並利用大型語言模型進行語義去歧義,從而降低使用者的操作負擔與學習曲線。實務上,開發者可先在模擬環境中收集使用者的凝視與手勢角度資料,設定合適的範圍參數;再將 LLM 內嵌於系統,對輸入進行即時去歧義與意圖生成;最後在實體機器人上進行迭代測試,確保在真實環境中的穩定性。此流程不僅提升交互效率,也能讓使用者在學習過程中保持更高的參與度與自然感。

原始文獻資訊

英文標題:
IntenBot: Flexible and Imprecise Multimodal Input for LLMs to Understand User Intentions for Casual and Human-Like HRI
作者:
Yen-Ting Liu, Chiu-Hsuan Wang, TzuLing Chen, Ting-Ying Lee, Tzu-Hua Wang, Chien-Ming Lin, Bing-Yu Chen, Hsin-Ruey Tsai
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。