DEAF:音頻語言模型聲學真實性診斷基準

arXiv - Artificial IntelligenceJiaqi Xiong, Yunjia Qi, Qi Cao, Yu Zheng, Weisheng Xu, Ziteng Wang, Ruofan Liao, Yutong Zhang, Sichen Liu

建立 DEAF 基準,揭示音頻 LLM 主要依賴文字提示而非聲學訊號

AI 幫你先抓重點

AI 重點 1

DEAF 基準的三維聲學衝突設計

滑鼠懸停看 AI 判斷理由
此設計能系統性區分聲學訊號與文字線索的影響,揭示模型偏差來源,對未來模型改進與教育應用具有關鍵指導意義。
AI 重點 2

七款音頻 MLLM 的文字優勢量化結果

滑鼠懸停看 AI 判斷理由
顯示即使在高性能語音測試中,模型仍主要依賴文字,提醒研究者與實務者在選擇或部署模型時需重視聲學理解能力,避免表面效能誤導。

核心研究發現

  1. 1

    DEAF 基準包含 2,700+ 互衝刺激,涵蓋情感語調、背景噪音與說話者身份三個聲學維度。

  2. 2

    透過分層評估框架,逐步提升文字影響力,能區分內容驅動偏差與提示誘導偏差。

  3. 3

    研究七款音頻 MLLM,發現雖能感知聲學變化,但預測結果主要由文字輸入驅動。

  4. 4

    建立診斷指標量化模型對文字線索的依賴度,顯示文字優勢明顯。

  5. 5

    這一差距說明在標準語音測試中表現優異的模型,實際聲學理解仍有限。

對教育工作者的啟發

對於教育科技開發者與課程設計者而言,DEAF 可作為模型選擇與優化的診斷工具。先用 DEAF 測試模型在情感語調、背景噪音及說話者身份等三個聲學維度下的真實性,確認其是否真正理解聲學訊號。若模型過度依賴文字,可透過增強聲學訓練資料、調整提示設計或加入聲學特徵提取模組來改善。教師在選用語音互動工具時,亦可參考 DEAF 結果,避免因文字提示過強而導致學生對聲學訊號的忽視,進而提升學習成效與自主學習能力。

原始文獻資訊

英文標題:
DEAF: A Benchmark for Diagnostic Evaluation of Acoustic Faithfulness in Audio Language Models
作者:
Jiaqi Xiong, Yunjia Qi, Qi Cao, Yu Zheng, Weisheng Xu, Ziteng Wang, Ruofan Liao, Yutong Zhang, Sichen Liu
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。