MathAtlas:針對真實世界研究生級數學自動形式化的基準測試

arXiv - Artificial IntelligenceNilay Patel, Noah Arias, Davit Babayan, Victoria Cochran, Timothy Libman, Hafsah Mahmood, Liam McCarty, Soli Munoz, Laurel Willey, Jeffrey Flanigan

本文推出首個大規模研究生級數學自動形式化基準測試 MathAtlas,包含五萬多個數學實體與依賴關係圖。

AI 幫你先抓重點

AI 重點 1

數學知識的「結構化依賴性」是自動形式化的核心難點。

滑鼠懸停看 AI 判斷理由
過去的基準測試多集中於單一問題,但 MathAtlas 引入了依賴圖,揭示了數學知識並非孤立存在,理解深層邏輯鏈條的能力才是 AI 邁向研究生級數學水平的關鍵指標。
AI 重點 2

現有 AI 模型在處理高階、複雜數學邏輯時存在顯著瓶頸。

滑鼠懸停看 AI 判斷理由
極低的正確率數據提醒研究者,目前的 LLM 在處理需要嚴密邏輯推導與深層知識連結的高階學術內容時,仍無法達到可靠的自動化水平,這為未來開發專門的數學推理模型指明了方向。

核心研究發現

  1. 1

    MathAtlas 從 103 本研究生數學教科書中提取了約 5.2 萬個定理、定義、練習、範例與證明。

  2. 2

    該基準測試包含約 17.8 萬個數學依賴關係,是首個能評估「依賴感知型」自動形式化系統的基準。

  3. 3

    現有強大模型在定理陳述的正確率僅 9.8%,定義的正確率僅 16.7%,顯示任務極具挑戰性。

  4. 4

    模型性能隨依賴深度增加而大幅下降,在具備深層依賴關係的子集 MA-Hard 上,最佳模型正確率僅 2.6%。

對教育工作者的啟發

對於開發高階數學學習工具的設計者而言,MathAtlas 提供了一個重要的警示:僅靠通用的語言模型不足以處理複雜的數學邏輯。在設計 AI 輔助學習系統時,應考慮引入「知識圖譜」或「依賴關係感知」的架構,幫助學生或 AI 系統理解數學概念間的層次結構。此外,開發者可利用此基準測試來評估其教學工具在處理高階數學概念時的精準度,確保自動化生成的數學內容具備學術嚴謹性。

原始文獻資訊

英文標題:
MathAtlas: A Benchmark for Autoformalization in the Wild
作者:
Nilay Patel, Noah Arias, Davit Babayan, Victoria Cochran, Timothy Libman, Hafsah Mahmood, Liam McCarty, Soli Munoz, Laurel Willey, Jeffrey Flanigan
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。