ai edtech affective computing multimodal learning human-computer interaction

用於情緒模仿強度預測的兩階段多模態框架

arXiv - Human-Computer InteractionDinithi Dissanayake, Shaveen Silva, Ovindu Atukorala, Prasanth Sasikumar, Suranga Nanayakkara2026年5月22日

提出一種結合文本、音訊、視覺與動作的多模態框架，用於精準預測六種連續情緒強度的挑戰賽方案。

AI 幫你先抓重點

AI 重點 1

多模態融合中的「模態丟棄（Modality Dropout）」技術應用

滑鼠懸停看 AI 判斷理由

這項技術能增強模型的魯棒性，防止模型過度依賴單一感官資訊（如僅依賴視覺），這對於處理現實世界中不完整或雜訊較多的教學情境數據至關重要。

AI 重點 2

從離散分類轉向連續情緒強度（EMI）的預測趨勢

滑鼠懸停看 AI 判斷理由

傳統情緒辨識多為分類任務，但本研究關注連續強度的預測，這更符合人類情緒波動的真實特性，對於開發能感知學生情緒細微變化的 AI 教學助手具有高度啟發。

核心研究發現

1
該研究提出一個兩階段框架，先獨立訓練各模態編碼器，再透過輕量級回歸器進行融合，並結合模態丟棄技術。
2
在驗證集上，結合文本、音訊、視覺與動作的融合模型表現最佳，平均皮爾森相關係數達到 0.4722。
3
該團隊在 EMI 挑戰賽中獲得第三名，其測試集的平均皮爾森相關係數表現優異，達到 0.57。
4
研究發現加入動作分支（motion branch）雖僅帶來微幅增益，但其行為模式仍具備研究價值。

對教育工作者的啟發

對於開發智慧學習環境（ITS）的設計者而言，此研究展示了如何透過整合視覺、聽覺與語言等多維度數據來精準捕捉使用者的情緒狀態。在教育情境中，這意味著未來的 AI 教學系統不僅能判斷學生是否「開心」或「難過」，更能感知情緒的「強度」（如興奮程度或挫折感的大小）。這種細粒度的情緒監測能讓系統更靈敏地調整教學節奏、提供適時的情感支持或調整難度，從而優化學習者的自主學習體驗與情緒調節。

原始文獻資訊

英文標題：: Two-Stage Multimodal Framework for Emotion Mimicry Intensity Prediction
作者：: Dinithi Dissanayake, Shaveen Silva, Ovindu Atukorala, Prasanth Sasikumar, Suranga Nanayakkara
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。