用於情緒模仿強度預測的兩階段多模態框架

arXiv - Human-Computer InteractionDinithi Dissanayake, Shaveen Silva, Ovindu Atukorala, Prasanth Sasikumar, Suranga Nanayakkara

提出一種結合文本、音訊、視覺與動作的多模態框架,用於精準預測六種連續情緒強度的挑戰賽方案。

AI 幫你先抓重點

AI 重點 1

多模態融合中的「模態丟棄(Modality Dropout)」技術應用

滑鼠懸停看 AI 判斷理由
這項技術能增強模型的魯棒性,防止模型過度依賴單一感官資訊(如僅依賴視覺),這對於處理現實世界中不完整或雜訊較多的教學情境數據至關重要。
AI 重點 2

從離散分類轉向連續情緒強度(EMI)的預測趨勢

滑鼠懸停看 AI 判斷理由
傳統情緒辨識多為分類任務,但本研究關注連續強度的預測,這更符合人類情緒波動的真實特性,對於開發能感知學生情緒細微變化的 AI 教學助手具有高度啟發。

核心研究發現

  1. 1

    該研究提出一個兩階段框架,先獨立訓練各模態編碼器,再透過輕量級回歸器進行融合,並結合模態丟棄技術。

  2. 2

    在驗證集上,結合文本、音訊、視覺與動作的融合模型表現最佳,平均皮爾森相關係數達到 0.4722。

  3. 3

    該團隊在 EMI 挑戰賽中獲得第三名,其測試集的平均皮爾森相關係數表現優異,達到 0.57。

  4. 4

    研究發現加入動作分支(motion branch)雖僅帶來微幅增益,但其行為模式仍具備研究價值。

對教育工作者的啟發

對於開發智慧學習環境(ITS)的設計者而言,此研究展示了如何透過整合視覺、聽覺與語言等多維度數據來精準捕捉使用者的情緒狀態。在教育情境中,這意味著未來的 AI 教學系統不僅能判斷學生是否「開心」或「難過」,更能感知情緒的「強度」(如興奮程度或挫折感的大小)。這種細粒度的情緒監測能讓系統更靈敏地調整教學節奏、提供適時的情感支持或調整難度,從而優化學習者的自主學習體驗與情緒調節。

原始文獻資訊

英文標題:
Two-Stage Multimodal Framework for Emotion Mimicry Intensity Prediction
作者:
Dinithi Dissanayake, Shaveen Silva, Ovindu Atukorala, Prasanth Sasikumar, Suranga Nanayakkara
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。