以建構思考:視覺文本交織幾何推理的基準與策略優化
arXiv - Artificial IntelligenceHaokun Zhao, Wanshi Xu, Haidong Yuan, Songjun Cao, Long Ma, Yanghua Xiao
本研究提出一個視覺-文本交織的鏈式思考框架,並透過行動適用性策略優化,提升多模態大語言模型在幾何推理上的表現。
AI 幫你先抓重點
AI 重點 1
GeoAux-Bench 基準的建立與應用。
滑鼠懸停看 AI 判斷理由
此基準提供了評估多模態模型在幾何推理中「建構思考」能力的新方法,有助於研究者更深入了解模型如何運用視覺輔助工具,並推動相關技術發展。
AI 重點 2
行動適用性策略優化 (A2PO) 的提出。
滑鼠懸停看 AI 判斷理由
A2PO 透過強化學習,能讓模型學習在何時以及如何建構有效的視覺輔助,提升推理的準確性,這對於提升模型在複雜問題上的解決能力至關重要。
核心研究發現
- 1
幾何推理的核心在於「建構思考」,即動態運用視覺輔助工具來連結問題條件與解答。
- 2
目前的多模態大語言模型多僅停留在對靜態圖表的被動推論,缺乏策略性地建構有效視覺輔助的能力。
- 3
研究團隊創建了 GeoAux-Bench,包含 4,334 個幾何問題,並將文本建構步驟與真實視覺更新對齊。
- 4
實驗結果顯示,交織視覺-文本輔助優於單一模態方法,能更有效地捕捉幾何推理的協同效應。
- 5
有效的建構行為能降低推理的熵值,與降低推理複雜度呈現強相關性,有助於提升模型表現。
對教育工作者的啟發
本研究啟發教育工作者思考如何在教學中引導學生主動運用視覺輔助工具進行推理,例如鼓勵學生繪圖、建立模型等。此外,研究結果也提示課程設計者應注重培養學生在問題解決過程中進行策略性建構的能力,而非僅僅依賴現成資訊。透過視覺-文本交織的學習方式,能有效提升學生對幾何概念的理解與應用。
原始文獻資訊
- 英文標題:
- Thinking with Constructions: A Benchmark and Policy Optimization for Visual-Text Interleaved Geometric Reasoning
- 作者:
- Haokun Zhao, Wanshi Xu, Haidong Yuan, Songjun Cao, Long Ma, Yanghua Xiao
- 來源:
- arXiv - Artificial Intelligence
- AI 摘要模型:
- ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。