Aryabhata 2:透過強化學習提升 STEM 高階推理能力的語言模型

arXiv - Computers and SocietyRitvik Rastogi, Vishal Singh, Tejas Chaudhari, Sandeep Varma

開發出專為競爭性 STEM 考試設計的 Aryabhata 2 模型,透過強化學習顯著提升推理能力並減少輸出長度。

AI 幫你先抓重點

AI 重點 1

強化學習(RL)在特定領域知識推理中的關鍵作用

滑鼠懸停看 AI 判斷理由
這顯示了通用大型語言模型在面對高度專業化、需要精確邏輯與數值計算的 STEM 領域時,仍需透過領域特定的強化學習與可驗證獎勵機制進行微調,才能達到專業考試等級的表現。
AI 重點 2

推理效率與精簡度的平衡優化

滑鼠懸停看 AI 判斷理由
模型不僅提升了正確率,還大幅減少了冗餘的輸出內容。這對於需要大規模部署、處理數百萬學生提問的教育科技平台而言,能有效降低運算成本並提升回應速度。

核心研究發現

  1. 1

    Aryabhata 2 在 JEE Main、JEE Advanced 及 NEET 等競爭性 STEM 考試基準測試中表現優異。

  2. 2

    該模型在 AIME、HMMT 及 GPQA 等分布外推理數據集上,展現出超越基礎模型 GPT-OSS-20B 的能力。

  3. 3

    透過強化學習優化,模型在提升推理精準度的同時,輸出的 Token 數量最高可減少 64%。

對教育工作者的啟發

對於開發教育輔助工具的實務工作者,此研究強調了「領域特定數據」與「可驗證邏輯」的重要性。在設計 AI 助教時,不應僅依賴通用模型,而應整合具備正確解題步驟與驗證機制的強化學習機制。此外,模型輸出的精簡化(減少 Token)對於提升學習者閱讀效率與降低平台運算成本具有極高的實務價值,建議在開發 STEM 學習系統時,應將「推理邏輯的正確性」與「回答的精煉度」作為雙重優化目標。

原始文獻資訊

英文標題:
Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning
作者:
Ritvik Rastogi, Vishal Singh, Tejas Chaudhari, Sandeep Varma
來源:
arXiv - Computers and Society
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。