ai edtech learning design knowledge building higher education

SentiAvatar：打造表情豐富、互動式數位人類

arXiv - Human-Computer InteractionChuhao Jin, Rui Zhang, Qingzhe Gao, Haoyu Shi, Dayu Wu, Yichen Jiang, Yihan Wu, Ruihua Song2026年4月6日

提出 SentiAvatar 框架，結合大規模對話資料、動作基礎模型與音訊感知的計畫-填充架構，實現即時、語義與節奏同步的 3D 數位人類動作生成。

AI 幫你先抓重點

AI 重點 1

音訊感知的計畫-填充架構將句子層語義規劃與幀層節奏插值分離，解決語義與節奏同步難題。

滑鼠懸停看 AI 判斷理由

此設計允許系統在保持語義一致性的同時，精確對齊語音節奏，對於需要即時互動的虛擬角色至關重要，並可擴展至多語言或多模態對話場景。

AI 重點 2

SuSuInterActs 資料集提供高品質同步語音與動作資料，為多模態學習提供新基準。

滑鼠懸停看 AI 判斷理由

該資料集的規模與質量為研究者提供了可重現、可擴充的實驗基礎，促進動作生成與語音同步領域的進一步突破，對教育領域的虛擬導師或互動教材開發具有啟發。

核心研究發現

1
建立 SuSuInterActs 21K 片段、37 小時的同步語音、全身動作與臉部表情資料集，填補多模態資料缺口。
2
透過 200K+ 動作序列預訓練 Motion Foundation Model，獲得豐富的動作先驗，提升非對話動作生成能力。
3
SentiAvatar 在 SuSuInterActs 上 R@1 43.64%，比最佳基線高近兩倍；在 BEATv2 上 FGD 4.941、BC 8.078，並能以 0.3 秒生成 6 秒輸出，支持無限多輪串流。

對教育工作者的啟發

對教育工作者而言，SentiAvatar 的即時、節奏同步動作生成可用於創建更具沉浸感的虛擬導師或互動教材。教育科技公司可利用 SuSuInterActs 資料集訓練本地化角色，並採用音訊感知的計畫-填充架構，確保角色動作與學生語音同步，提升學習者情感投入。此框架亦支援多輪對話，適合設計長時間互動式學習場景，如語言學習、情緒教育等。

原始文獻資訊

英文標題：: SentiAvatar: Towards Expressive and Interactive Digital Humans
作者：: Chuhao Jin, Rui Zhang, Qingzhe Gao, Haoyu Shi, Dayu Wu, Yichen Jiang, Yihan Wu, Ruihua Song
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。