ai edtech higher education learning design knowledge building

利用機器心象於情境對話中表示共同基礎

arXiv - Human-Computer InteractionBiswesh Mohapatra, Giovanni Duca, Laurent Romary, Justine Cassell2026年4月24日

提出視覺支架框架，將對話狀態轉化為持續視覺歷史，減少代表性模糊並提升對話一致性。

AI 幫你先抓重點

AI 重點 1

視覺支架能緩解代表性模糊，提升持續共享語境的穩定性。

滑鼠懸停看 AI 判斷理由

此機制模擬人類心象的具象化過程，使機器能在長對話中保持對實體與事件的清晰辨識，避免語義混淆，對對話系統的實用性與可靠性具有關鍵影響。

AI 重點 2

混合多模態策略在實際基準上表現最佳，凸顯文字與視覺互補的重要性。

滑鼠懸停看 AI 判斷理由

此發現提示開發者在設計對話代理時不應僅依賴文字輸入，應結合圖像或場景描述，以提升系統對複雜情境的理解與回應質量，對教育科技產品的設計方向具有直接指導意義。

核心研究發現

1
增量外化方法相較於完整對話推理，能顯著提升對話生成的準確度。
2
視覺支架能有效降低代表性模糊，強化對場景的具體承諾，提升語境追蹤能力。
3
對於不可描繪資訊，純文字表示仍具優勢，顯示兩種模態互補。
4
混合多模態設定在IndiRef基準上取得最佳整體表現，證明結合視覺與文字最為有效。

對教育工作者的啟發

對於設計 AI 語言導師或互動式學習工具，建議加入視覺支架以維持長期共享語境，尤其在需要追蹤多步推理或場景變化的情境。混合文字與圖像的輸入方式可提升系統對非可描繪資訊的處理能力，避免單一模態造成的語義模糊。實務上可透過簡易圖像生成或場景重建工具，將對話內容即時轉化為可視化歷史，並在回應生成時作為參考，從而提升學生或使用者的參與感與理解度。此策略亦適用於遠距教學、虛擬實境教學環境，能有效支援自主學習與協作學習的共同基礎維護。

原始文獻資訊

英文標題：: Using Machine Mental Imagery for Representing Common Ground in Situated Dialogue
作者：: Biswesh Mohapatra, Giovanni Duca, Laurent Romary, Justine Cassell
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。