SentiAvatar:打造表情豐富、互動式數位人類
arXiv - Human-Computer InteractionChuhao Jin, Rui Zhang, Qingzhe Gao, Haoyu Shi, Dayu Wu, Yichen Jiang, Yihan Wu, Ruihua Song
提出 SentiAvatar 框架,結合大規模對話資料、動作基礎模型與音訊感知的計畫-填充架構,實現即時、語義與節奏同步的 3D 數位人類動作生成。
AI 幫你先抓重點
AI 重點 1
音訊感知的計畫-填充架構將句子層語義規劃與幀層節奏插值分離,解決語義與節奏同步難題。
滑鼠懸停看 AI 判斷理由
此設計允許系統在保持語義一致性的同時,精確對齊語音節奏,對於需要即時互動的虛擬角色至關重要,並可擴展至多語言或多模態對話場景。
AI 重點 2
SuSuInterActs 資料集提供高品質同步語音與動作資料,為多模態學習提供新基準。
滑鼠懸停看 AI 判斷理由
該資料集的規模與質量為研究者提供了可重現、可擴充的實驗基礎,促進動作生成與語音同步領域的進一步突破,對教育領域的虛擬導師或互動教材開發具有啟發。
核心研究發現
- 1
建立 SuSuInterActs 21K 片段、37 小時的同步語音、全身動作與臉部表情資料集,填補多模態資料缺口。
- 2
透過 200K+ 動作序列預訓練 Motion Foundation Model,獲得豐富的動作先驗,提升非對話動作生成能力。
- 3
SentiAvatar 在 SuSuInterActs 上 R@1 43.64%,比最佳基線高近兩倍;在 BEATv2 上 FGD 4.941、BC 8.078,並能以 0.3 秒生成 6 秒輸出,支持無限多輪串流。
對教育工作者的啟發
對教育工作者而言,SentiAvatar 的即時、節奏同步動作生成可用於創建更具沉浸感的虛擬導師或互動教材。教育科技公司可利用 SuSuInterActs 資料集訓練本地化角色,並採用音訊感知的計畫-填充架構,確保角色動作與學生語音同步,提升學習者情感投入。此框架亦支援多輪對話,適合設計長時間互動式學習場景,如語言學習、情緒教育等。
原始文獻資訊
- 英文標題:
- SentiAvatar: Towards Expressive and Interactive Digital Humans
- 作者:
- Chuhao Jin, Rui Zhang, Qingzhe Gao, Haoyu Shi, Dayu Wu, Yichen Jiang, Yihan Wu, Ruihua Song
- 來源:
- arXiv - Human-Computer Interaction
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。