平衡思考:提升視覺語言模型中的思辨鏈訓練

arXiv - Artificial IntelligenceShaked Perek, Ben Wiesel, Avihu Dekel, Nimrod Shabtay, Eli Schwartz

本研究提出 SCALe 方法,透過動態權重調整,改善視覺語言模型在思辨過程中的訓練,提升準確性並降低訓練時間。

AI 幫你先抓重點

AI 重點 1

SCALe 方法能有效提升視覺語言模型的推理準確度。

滑鼠懸停看 AI 判斷理由
此方法針對現有 SFT 訓練的固有問題——token 不平衡——進行了改善,能更有效地利用訓練資料,提升模型在複雜推理任務上的表現,對於提升 AI 輔助教育的品質有直接影響。
AI 重點 2

SCALe 降低了訓練成本,且能與其他強化學習方法結合。

滑鼠懸停看 AI 判斷理由
相較於傳統的訓練流程,SCALe 只需要約七分之一的訓練時間,降低了資源消耗。同時,它能與 GRPO 等方法結合,提供更強大的效能,具有良好的擴展性。

核心研究發現

  1. 1

    傳統的監督式微調 (SFT) 在訓練視覺語言模型時,會過度強調長篇的推理過程,導致冗長且不準確的答案。

  2. 2

    SCALe 方法透過分離推理和答案部分的監督,並使用動態的、長度無關的權重,有效解決了上述問題。

  3. 3

    SCALe-SFT 能夠逐步將訓練的重點從冗長的推理過程轉移到精簡且有依據的推理過程,藉由餘弦排程策略達成。

  4. 4

    SCALe 在多種基準測試和架構上,都能持續提升準確度,並在訓練時間上大幅優於傳統 SFT 及完整的 SFT+GRPO 流程。

  5. 5

    將 SCALe 與 GRPO 結合,能達到最佳的整體效能,顯示其作為獨立方法和強化學習基礎的價值。

對教育工作者的啟發

此研究對於開發更有效率且準確的視覺語言模型具有重要意義。教育科技的開發者可以利用 SCALe 方法,提升 AI 輔助教學系統的推理能力,例如:自動批改作業、提供個人化學習建議等。此外,SCALe 的低訓練成本也使其更易於應用於資源有限的環境中,促進教育公平性。

原始文獻資訊

英文標題:
Balanced Thinking: Improving Chain of Thought Training in Vision Language Models
作者:
Shaked Perek, Ben Wiesel, Avihu Dekel, Nimrod Shabtay, Eli Schwartz
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。