透過經驗迭代蒸餾優化黑盒大型語言模型之多步推理與工具使用提示策略

arXiv - Artificial IntelligenceKrishna Sayana, Ketan Todi, Ambarish Jash

提出一種強化學習框架,透過迭代蒸餾經驗來訓練輕量化提示模型,顯著提升黑盒 LLM 的推理與工具使用能力。

AI 幫你先抓重點

AI 重點 1

從「手動調優」轉向「自動化策略優化」的範式轉移

滑鼠懸停看 AI 判斷理由
過去提示工程依賴人工直覺,而此研究將其轉化為可優化的數學問題,這意味著未來 AI 輔助教學工具的指令設計將能透過自動化演算法達到人類難以企及的精準度。
AI 重點 2

輕量化提示模型與大型黑盒模型的協作模式

滑鼠懸停看 AI 判斷理由
這證明了不需要重新訓練昂貴的大型模型,僅需優化一個輕量級的「引導者」,即可激發大型模型潛藏的複雜推理能力,為資源受限的教育科技開發提供了新路徑。

核心研究發現

  1. 1

    在 BBEH 測試集中,該方法將邏輯密集型推理任務的表現從 55% 大幅提升至 90%。

  2. 2

    在 Tau-bench 工具使用任務中,模型表現從 74% 提升至 91%,展現強大的任務執行力。

  3. 3

    研究發現提示策略會演化出專門的演算法啟發式規則,且在樣本效率上優於 GEPA 等現有演化基準。

  4. 4

    透過結合標量獎勵與密集文本評論的對比經驗緩衝區,能將迭代優化過程轉化為單次策略權重。

對教育工作者的啟發

對於開發 AI 輔助學習系統(ITS)的設計者而言,此研究提供了重要啟發:未來設計 AI 導師時,不應僅依賴靜態的 Prompt,而應考慮開發一個能根據學生表現(獎勵訊號)動態調整引導策略的「提示代理人」。這種「引導者」可以根據學生的錯誤類型(文本評論),自動生成更精準的提示,引導學生進行多步推理,從而實現更具個人化且高效的自主學習支持。

原始文獻資訊

英文標題:
Prompting Policies for Multi-step Reasoning and Tool-Use in Black-box LLMs with Iterative Distillation of Experience
作者:
Krishna Sayana, Ketan Todi, Ambarish Jash
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。