CogBias:測量與減輕大型語言模型的認知偏差
arXiv - Artificial IntelligenceFan Huang, Songheng Zhang, Haewoon Kwak, Jisun An
本文提出 CogBias 基準,證實 LLM 認知偏差可透過激活導向減少 26-32% 且保持性能。
AI 幫你先抓重點
AI 重點 1
激活導向(Activation Steering)能有效減少多類偏差且不損失下游能力
滑鼠懸停看 AI 判斷理由
此技術不僅證明偏差可被量化並調整,還保留模型在多項基準上的表現,對於高風險決策環境的實際部署具有直接可落地價值。
AI 重點 2
提示級去偏對不同偏差類型效果相反,提示設計需針對偏差類型調整
滑鼠懸停看 AI 判斷理由
提示工程是使用者最直觀的介面,了解其對各偏差類型的不同影響能避免不必要的偏差放大,提升模型的公平性與可靠性。
AI 重點 3
偏差在激活空間呈線性可分離,提供可量化的內部表示
滑鼠懸停看 AI 判斷理由
揭示偏差的內部機制為未來研究提供可測量的指標,促進更精細的偏差診斷與干預方法的開發。
核心研究發現
- 1
LLM 在四類認知偏差(判斷、資訊處理、社會、回應)中均顯示可重複且系統性的偏差。
- 2
針對回應偏差的提示級去偏方法能顯著降低偏差,但對判斷偏差卻適得其反。
- 3
透過線性探測與對比設計,發現偏差在模型激活空間中呈線性可分離的方向。
- 4
激活導向調整能將偏差分數降低 26–32%,同時在 25 個下游基準上保持或僅輕微下降性能。
- 5
雖不同模型的偏差表示幾乎正交(平均餘弦相似度 0.01),但激活導向在各架構上均能以相似速率降低偏差。
對教育工作者的啟發
教育科技開發者可先使用 CogBias 基準對模型進行偏差測試,確定判斷、資訊處理、社會與回應四類偏差的嚴重程度。針對回應偏差,可採用提示級去偏;對判斷偏差則應避免此方法,改用激活導向或重訓練。激活導向能在不顯著降低下游任務表現的前提下,將偏差分數降低 26–32%,因此建議在高風險決策場景中加入此步驟。最後,持續追蹤模型在不同偏差類型的表現,並結合使用者回饋調整介面設計,可提升決策透明度與公平性。
原始文獻資訊
- 英文標題:
- CogBias: Measuring and Mitigating Cognitive Bias in Large Language Models
- 作者:
- Fan Huang, Songheng Zhang, Haewoon Kwak, Jisun An
- 來源:
- arXiv - Artificial Intelligence
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。