dTRPO:擴散大型語言模型策略優化的軌跡縮減
arXiv - Artificial IntelligenceWenxuan Zhang, Lemeng Wu, Changsheng Zhao, Ernie Chang, Mingchen Zhuge, Zechun Liu, Andy Su, Hanxian Huang, Jun Chen, Chong Zhou, Raghuraman Krishnamoorthi, Vikas Chandra, Mohamed Elhoseiny, Wei Wen
提出 dTRPO 透過軌跡縮減降低計算成本,提升擴散大型語言模型的離線策略訓練效率與生成品質,並在多項基準上顯著提升表現。
AI 幫你先抓重點
AI 重點 1
軌跡縮減策略使離線策略訓練成本大幅降低
滑鼠懸停看 AI 判斷理由
此策略將完整軌跡機率估算簡化為單次前向傳遞,顯著減少計算量,讓大模型能在有限資源下進行高效離線優化,對於需要大量訓練樣本的教育應用尤為重要。
AI 重點 2
dTRPO 在多項基準上提升 9.6% STEM、4.3% 程式碼、3.0% 指令跟隨
滑鼠懸停看 AI 判斷理由
這些提升顯示 dTRPO 能有效提升模型在複雜推理與實務任務上的表現,對於教育內容生成與互動式教學系統的品質提升具有直接影響。
核心研究發現
- 1
在參考策略正則化下,未遮蔽 token 的機率比可作為中間擴散狀態機率比的無偏估計。
- 2
完整軌跡機率可透過單次前向傳遞重遮蔽最終狀態來有效估算。
- 3
將兩種軌跡縮減策略整合進策略優化目標,形成 dTRPO。
- 4
dTRPO 在 7B 擴散大型語言模型上於 STEM、程式碼與指令跟隨任務中分別提升 9.6%、4.3% 與 3.0%。
- 5
由於離線單前向特性,dTRPO 在訓練與生成效率上均顯著優於傳統方法。
對教育工作者的啟發
對於教育科技開發者而言,dTRPO 的離線單前向設計可降低 GPU 需求,縮短模型微調週期,讓教師與課程設計師能更快迭代生成教材。其在 STEM 與程式碼任務上的顯著提升,提示可將此技術應用於自動化題庫生成、程式教學輔助與複雜推理練習。實務上,開發者可先在小型 dLLM 上驗證軌跡縮減效果,再擴展至大模型,並結合指令微調以確保生成內容符合學習目標。
原始文獻資訊
- 英文標題:
- dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models
- 作者:
- Wenxuan Zhang, Lemeng Wu, Changsheng Zhao, Ernie Chang, Mingchen Zhuge, Zechun Liu, Andy Su, Hanxian Huang, Jun Chen, Chong Zhou, Raghuraman Krishnamoorthi, Vikas Chandra, Mohamed Elhoseiny, Wei Wen
- 來源:
- arXiv - Artificial Intelligence
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。