TEMPER:情緒擾動對定量推理的測試
arXiv - Computation and LanguageAtahan Dokme, Benjamin Reichman, Larry Heck
情緒化語境會降低大型語言模型在定量推理任務的準確度,且透過中性化可恢復大部分效能。
AI 幫你先抓重點
AI 重點 1
情緒風格本身即為推理性能的主要脆弱點,非語義或數值錯誤。
滑鼠懸停看 AI 判斷理由
這揭示大型語言模型在面對真實情境時,情緒語氣會干擾內部推理機制,提示在實務部署前需加入情緒中性化或情緒辨識層。
AI 重點 2
中性化策略可作為輕量級推理時緩解手段,快速恢復效能。
滑鼠懸停看 AI 判斷理由
此方法不需額外訓練,能在推理階段即時調整輸入,對於需要即時回應的教育應用具備高可行性。
核心研究發現
- 1
情緒化翻譯框架將問題轉換為情緒變體,保留所有數值與關係,並在GSM8K、MultiArith、ARC-Challenge上生成5,400對情緒-中性樣本。
- 2
在18個模型(1B至前沿規模)上測試,情緒化語境使準確率下降2-10個百分點,即使數值內容未變。
- 3
將情緒變體中性化後,幾乎恢復原始性能,證明降效源於情緒風格而非內容破壞;非情緒同義改寫不造成降效。
對教育工作者的啟發
對於教育科技產品,建議在輸入前加入情緒中性化模組,或在模型訓練時加入情緒多樣化資料,以提升在學生真實提問中的推理準確度。若無法改寫輸入,可在推理階段即時將情緒語句轉為中性表達,減少2-10%準確率下降。此策略不需額外訓練,成本低,適合即時回應系統。
原始文獻資訊
- 英文標題:
- TEMPER: Testing Emotional Perturbation in Quantitative Reasoning
- 作者:
- Atahan Dokme, Benjamin Reichman, Larry Heck
- 來源:
- arXiv - Computation and Language
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。