CogBias:測量與減輕大型語言模型的認知偏差

arXiv - Artificial IntelligenceFan Huang, Songheng Zhang, Haewoon Kwak, Jisun An

本文提出 CogBias 基準,證實 LLM 認知偏差可透過激活導向減少 26-32% 且保持性能。

AI 幫你先抓重點

AI 重點 1

激活導向(Activation Steering)能有效減少多類偏差且不損失下游能力

滑鼠懸停看 AI 判斷理由
此技術不僅證明偏差可被量化並調整,還保留模型在多項基準上的表現,對於高風險決策環境的實際部署具有直接可落地價值。
AI 重點 2

提示級去偏對不同偏差類型效果相反,提示設計需針對偏差類型調整

滑鼠懸停看 AI 判斷理由
提示工程是使用者最直觀的介面,了解其對各偏差類型的不同影響能避免不必要的偏差放大,提升模型的公平性與可靠性。
AI 重點 3

偏差在激活空間呈線性可分離,提供可量化的內部表示

滑鼠懸停看 AI 判斷理由
揭示偏差的內部機制為未來研究提供可測量的指標,促進更精細的偏差診斷與干預方法的開發。

核心研究發現

  1. 1

    LLM 在四類認知偏差(判斷、資訊處理、社會、回應)中均顯示可重複且系統性的偏差。

  2. 2

    針對回應偏差的提示級去偏方法能顯著降低偏差,但對判斷偏差卻適得其反。

  3. 3

    透過線性探測與對比設計,發現偏差在模型激活空間中呈線性可分離的方向。

  4. 4

    激活導向調整能將偏差分數降低 26–32%,同時在 25 個下游基準上保持或僅輕微下降性能。

  5. 5

    雖不同模型的偏差表示幾乎正交(平均餘弦相似度 0.01),但激活導向在各架構上均能以相似速率降低偏差。

對教育工作者的啟發

教育科技開發者可先使用 CogBias 基準對模型進行偏差測試,確定判斷、資訊處理、社會與回應四類偏差的嚴重程度。針對回應偏差,可採用提示級去偏;對判斷偏差則應避免此方法,改用激活導向或重訓練。激活導向能在不顯著降低下游任務表現的前提下,將偏差分數降低 26–32%,因此建議在高風險決策場景中加入此步驟。最後,持續追蹤模型在不同偏差類型的表現,並結合使用者回饋調整介面設計,可提升決策透明度與公平性。

原始文獻資訊

英文標題:
CogBias: Measuring and Mitigating Cognitive Bias in Large Language Models
作者:
Fan Huang, Songheng Zhang, Haewoon Kwak, Jisun An
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。