超越準確度:評估大型語言模型數學推理的策略多樣性

arXiv - Computers and SocietyXia Yang, Xuanyi Zhang, Hao Hu, Feng Ji

提出策略層級評估框架,發現LLM在數學推理中策略多樣性與答案準確度分離。

AI 幫你先抓重點

AI 重點 1

策略多樣性是評估LLM數學推理的關鍵維度,能揭示模型在不同領域的推理靈活性。

滑鼠懸停看 AI 判斷理由
因為僅靠答案準確度無法反映模型的推理方式;多樣性指標能顯示模型是否能從多角度解題,對 AI 教學工具的設計與評估具有重要參考價值。
AI 重點 2

模型在 Geometry 與 Number Theory 上的策略缺口顯示領域專業知識仍是挑戰,提示需要針對性增強訓練。

滑鼠懸停看 AI 判斷理由
這表明即使是最先進的 LLM 在特定數學領域仍有限,教育工作者可透過增添專業資料或設計針對性提示來提升 AI 的推理能力,進而改善課程評量與學習成效。

核心研究發現

  1. 1

    在單解提示下,四大前沿模型在 AMC/AIME 題目上達到 95%–100% 的答案準確率,但在多策略提示下,模型回覆的有效策略數量遠低於人類參考集。

  2. 2

    Gemini、DeepSeek、GPT、Claude 分別產生 184、152、151、110 種獨特有效策略,與 217 個 AoPS 參考策略相比,幾乎缺失 Geometry 與 Number Theory 的多樣性。

  3. 3

    模型共產生 50 稍新策略,顯示雖缺乏完整覆蓋,但仍具備創造替代推理的潛力。

  4. 4

    重複執行 20 題目三次後,最強模型僅能恢復 39/55(71%)的 AoPS 參考策略,顯示策略發現的增益逐漸減少。

對教育工作者的啟發

教育科技開發者可將策略多樣性納入 AI 評估指標,設計鼓勵多策略思考的提示;課程設計者可利用模型產生的新策略作為創意教學素材;在評量設計時加入策略覆蓋度檢查,確保學生不僅追求正確答案,也能培養多元推理能力;重複執行測試可擴大策略庫,提升 AI 的創造力與適應性。

原始文獻資訊

英文標題:
Beyond Accuracy: Evaluating Strategy Diversity in LLM Mathematical Reasoning
作者:
Xia Yang, Xuanyi Zhang, Hao Hu, Feng Ji
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。