隱藏的思考成本:LM 後期訓練的能源與環境影響
arXiv - Computers and SocietyJacob Morrison, Noah A. Smith, Emma Strubell
本文首次量化整個模型開發流程(含後期訓練)的能源、碳排放與水耗,顯示後期訓練成本遠高於預訓練,並呼籲完整報告以降低 AI 環境足跡。
AI 幫你先抓重點
AI 重點 1
後期訓練階段的能源與碳排放往往被忽視,實際成本可超過預訓練階段。
滑鼠懸停看 AI 判斷理由
這提醒研究者與開發者必須將後期訓練納入環境報告,否則低估 AI 的總體環境影響,影響可持續發展策略。
AI 重點 2
失敗實驗與消融佔計算量的大部分,顯示實驗設計效率直接關係到能源消耗。
滑鼠懸停看 AI 判斷理由
優化實驗流程、減少失敗跑能顯著降低能源與碳排放,對於資源有限的研究機構尤為重要。
核心研究發現
- 1
推理型模型在後期訓練階段的資料中心能源消耗比指令調優模型高 17 倍,主要由強化學習回放產生所致。
- 2
開發成本(實驗、失敗跑、消融)佔總計算量的 82.2%,比以往僅聚焦預訓練的 50% 方案高出約 65%。
- 3
整個 Olmo 3 開發過程消耗約 12.3 GWh 能源、排放 4,251 tCO₂eq,並使用 15,887 公升水,水耗主要來自電力發電基礎設施。
對教育工作者的啟發
實務工作者應在模型開發初期即設計完整的能源與碳排放追蹤機制,優化後期訓練流程(如減少 RL 回放次數、改用更高效演算法),並盡量使用可再生能源供電。減少失敗實驗與消融測試的頻率,可直接降低 80% 以上的計算成本。學術機構可將此評估納入研究報告與資金申請,促進透明度與可持續發展。
原始文獻資訊
- 英文標題:
- The Hidden Cost of Thinking: Energy Use and Environmental Impact of LMs Beyond Pretraining
- 作者:
- Jacob Morrison, Noah A. Smith, Emma Strubell
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。