雙模型預測講者表達在視訊學習中的情感投入與語音吸引力

arXiv - Human-Computer InteractionHung-Yue Suen, Kuo-En Hung, Fan-Hsun Tseng

利用講者面部、眼動、語調及語音特徵,雙重迴歸模型可準確預測觀眾情感投入與語音吸引力,證明講者側情感足以代表觀眾回饋。

AI 幫你先抓重點

AI 重點 1

講者側多模態特徵可預測觀眾回饋,實現隱私保護

滑鼠懸停看 AI 判斷理由
此點顯示能在不收集觀眾資料的情況下,透過講者表達即時預測學習者情感,符合隱私保護與可擴展性的需求,對教育科技實務具有直接應用價值。
AI 重點 2

雙重迴歸模型在獨立測試集上達 R² 0.85/0.88,證明高準確度

滑鼠懸停看 AI 判斷理由
高 R² 表明模型能在不同講者上保持穩定預測,說明其實際可落實於多樣化教學影片,提升學習體驗與評量精度。
AI 重點 3

使用 MOOC 大規模資料庫,證明大數據對模型訓練的必要性

滑鼠懸停看 AI 判斷理由
此發現強調資料量與多樣性對情感 AI 的影響,提醒研究者與開發者需聚焦於大規模、真實世界資料的蒐集與處理,以提升模型泛化與效能。

核心研究發現

  1. 1

    講者面部動態、眼動、語調與語意特徵能有效預測情感投入,迴歸模型 R² 0.85。

  2. 2

    只利用講者語音特徵即可預測語音吸引力,R² 0.88。

  3. 3

    兩模型在講者獨立測試集上表現穩定,證明模型泛化能力。

  4. 4

    講者側多模態特徵可替代觀眾側輸入,實現隱私保護與可擴展性。

  5. 5

    研究使用大規模 MOOC 語料庫,顯示大數據對情感 AI 的重要性。

對教育工作者的啟發

此研究提供了可直接應用於線上學習平台的情感分析框架。實務工作者可透過收集講者面部、眼動、語調與語音特徵,建立即時情感投入與語音吸引力預測模型,進而動態調整影片節奏、內容難度或提供個別化回饋,提升學習者參與度與滿意度。由於模型僅依賴講者側資料,能在保護學習者隱私的前提下實現大規模部署,並可整合至 LMS 或教學管理系統,提供教師與學習者雙方即時情感洞察。建議未來可擴充至多語言環境,並結合自適應學習路徑,以實現更精細化的情感導向教學。

原始文獻資訊

英文標題:
Dual-Model Prediction of Affective Engagement and Vocal Attractiveness from Speaker Expressiveness in Video Learning
作者:
Hung-Yue Suen, Kuo-En Hung, Fan-Hsun Tseng
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。