ParsVoice:用於文字轉語音合成的大規模多說話者波斯語語料庫

arXiv - Human-Computer InteractionMohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery

研究團隊開發了 ParsVoice,這是目前規模最大的公開波斯語語料庫,旨在解決波斯語在多說話者 TTS 領域資源不足的問題。

AI 幫你先抓重點

AI 重點 1

自動化數據處理管線的開發對於低資源語言至關重要。

滑鼠懸停看 AI 判斷理由
這展示了如何利用現有的語言模型(如 ParsBERT)與 ASR 技術,將非結構化的長音檔轉化為高品質的訓練資料,這為其他資源匱乏語言的 AI 開發提供了可複製的範例。
AI 重點 2

大規模多說話者數據對提升語音合成的自然度與多樣性有決定性影響。

滑鼠懸停看 AI 判斷理由
研究證明了數據規模與說話者多樣性(1,815 位說話者)能顯著提升模型在零樣本(zero-shot)情境下的表現,這對於開發具備情感與個性化特質的教育輔助工具具有重要意義。

核心研究發現

  1. 1

    開發了一套可擴展的自動化流程,結合 ParsBERT 分類器、ASR 邊界優化與標點還原技術,從長篇有聲書中提取高品質語音數據。

  2. 2

    釋出包含 2,200 小時 TTS 就緒子集的語料庫,擁有 136 萬個對齊片段與 1,815 個自動識別的說話者 ID,規模較先前最大數據集高出 25 倍以上。

  3. 3

    透過微調 XTTS 模型進行驗證,在無需音素表示的情況下,實現了 3.6/5 的自然度 MOS 分數與 4.0/5 的說話者相似度 MOS 分數。

對教育工作者的啟發

對於開發多語言教育科技工具的設計者而言,此研究強調了「數據質量」與「自動化管線」的重要性。在開發針對特定語言(如波斯語或其他小眾語言)的語音輔助學習工具(如朗讀教材、語言學習 App)時,不應僅依賴人工標註,而應學習如何結合現有的語言模型與 ASR 技術來建立大規模、高品質的語料庫。這能有效降低開發成本,並提升語音合成的自然度,進而提供更具沉浸感的學習體驗。

原始文獻資訊

英文標題:
ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
作者:
Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。