Aryabhata 2:透過強化學習提升 STEM 高階推理能力的語言模型
arXiv - Computers and SocietyRitvik Rastogi, Vishal Singh, Tejas Chaudhari, Sandeep Varma
開發出專為競爭性 STEM 考試設計的 Aryabhata 2 模型,透過強化學習顯著提升推理能力並減少輸出長度。
AI 幫你先抓重點
AI 重點 1
強化學習(RL)在特定領域知識推理中的關鍵作用
滑鼠懸停看 AI 判斷理由
這顯示了通用大型語言模型在面對高度專業化、需要精確邏輯與數值計算的 STEM 領域時,仍需透過領域特定的強化學習與可驗證獎勵機制進行微調,才能達到專業考試等級的表現。
AI 重點 2
推理效率與精簡度的平衡優化
滑鼠懸停看 AI 判斷理由
模型不僅提升了正確率,還大幅減少了冗餘的輸出內容。這對於需要大規模部署、處理數百萬學生提問的教育科技平台而言,能有效降低運算成本並提升回應速度。
核心研究發現
- 1
Aryabhata 2 在 JEE Main、JEE Advanced 及 NEET 等競爭性 STEM 考試基準測試中表現優異。
- 2
該模型在 AIME、HMMT 及 GPQA 等分布外推理數據集上,展現出超越基礎模型 GPT-OSS-20B 的能力。
- 3
透過強化學習優化,模型在提升推理精準度的同時,輸出的 Token 數量最高可減少 64%。
對教育工作者的啟發
對於開發教育輔助工具的實務工作者,此研究強調了「領域特定數據」與「可驗證邏輯」的重要性。在設計 AI 助教時,不應僅依賴通用模型,而應整合具備正確解題步驟與驗證機制的強化學習機制。此外,模型輸出的精簡化(減少 Token)對於提升學習者閱讀效率與降低平台運算成本具有極高的實務價值,建議在開發 STEM 學習系統時,應將「推理邏輯的正確性」與「回答的精煉度」作為雙重優化目標。
原始文獻資訊
- 英文標題:
- Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning
- 作者:
- Ritvik Rastogi, Vishal Singh, Tejas Chaudhari, Sandeep Varma
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- /models/gemma-4-26B-A4B-it
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。