合成專家知識：用於可靠 AI 游泳教練的多模態驗證數據集

arXiv - Computers and SocietyAhmad Al-Kabbany, Esraa Kassem2026年5月14日

研究提出一種多代理 LLM 架構，透過合成高品質多模態數據集，解決游泳領域 AI 教練缺乏可靠專業知識的問題。

AI 幫你先抓重點

AI 重點 1

利用 RAG 技術解決生成式 AI 在專業領域的「幻覺」問題。

滑鼠懸停看 AI 判斷理由

在運動科學等高風險領域，AI 的錯誤建議可能導致運動員受傷。透過檢索增強生成（RAG）將生成內容與權威知識掛鉤，是確保 AI 教練具備專業可信度的關鍵技術路徑。

AI 重點 2

以合成數據解決專業領域數據獲取的倫理與成本障礙。

滑鼠懸停看 AI 判斷理由

運動員的生物識別數據涉及高度隱私與倫理限制，且人工標記成本極高。本研究展示了如何透過高品質的合成數據建立基準，為缺乏大規模真實數據的專業領域開闢 AI 應用新路徑。

核心研究發現

1
開發出一種新型生成框架，整合生理數據、文獻、運動學感測器及非結構化專家知識四個維度的多模態知識庫。
2
利用多代理 LLM 架構成功合成 1,864 組經過驗證的「問題-上下文-答案」三元組數據集。
3
該數據集是從 1,914 份草案中篩選而成，並嚴格通過 12 項生理學合理性規則的評估，確保其專業可靠性。

對教育工作者的啟發

對於開發專業領域 AI 輔助工具的設計者而言，本研究提供了重要啟發：首先，單純依賴大規模語言模型是不夠的，必須結合 RAG 技術與領域專有的知識庫（如生理學文獻與感測器數據）來確保輸出品質；其次，當面對數據稀缺或隱私敏感的領域時，建立一套嚴謹的「合成數據生成與驗證機制」（如本研究中的 12 項生理規則）是建立可靠 AI 系統的有效替代方案。這對於開發高度專業化、需具備高精確度的教育或訓練輔助工具具有高度參考價值。

原始文獻資訊

英文標題：: Synthesizing the Expert: A Validated Multimodal Dataset for Trustworthy AI-Assisted Swimming Coaching
作者：: Ahmad Al-Kabbany, Esraa Kassem
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。