敘事勝過數字:大型語言模型中的可識別受害者效應及其在對齊與推理下的放大現象

arXiv - Computers and SocietySyed Rifat Raiyan

研究發現大型語言模型普遍存在「可識別受害者效應」,且標準思維鏈(CoT)反而會放大這種非理性的偏好。

AI 幫你先抓重點

AI 重點 1

思維鏈(CoT)在道德決策中可能成為偏見的放大器

滑鼠懸停看 AI 判斷理由
傳統觀點認為 CoT 能提升模型的邏輯與理性,但本研究揭示其在處理情感敘事時會強化非理性偏好,這提醒開發者在設計 AI 倫理決策系統時,不能單靠增加推理步驟來解決偏誤問題。
AI 重點 2

模型對齊(Alignment)與道德推理的複雜交互作用

滑鼠懸停看 AI 判斷理由
對齊訓練雖然能引導模型行為,卻可能加劇對特定敘事的偏好。這對於未來開發具備公平性、用於人道救援或資源分配的 AI 系統具有關鍵的警示意義。

核心研究發現

  1. 1

    大型語言模型普遍存在可識別受害者效應(IVE),其平均效應值(d=0.223)約為人類元分析基準值的兩倍。

  2. 2

    指令微調模型表現出極端的 IVE(Cohen's d 高達 1.56),而專精於推理的模型則可能反轉此效應(d=-0.85)。

  3. 3

    標準思維鏈(CoT)提示詞非但未能糾正偏誤,反而使 IVE 效應值從 0.15 增加至 0.41,幾乎增長了三倍。

  4. 4

    研究同時觀察到心理物理麻木、完美的數量忽視以及輕微的內外群體文化偏見現象。

對教育工作者的啟發

對於開發教育 AI 或決策輔助系統的設計者而言,應警惕模型「過度同情敘事」而忽視「統計數據」的風險。在設計涉及資源分配(如獎學金評選、學習資源分配)的 AI 代理人時,應避免僅使用標準的 CoT 提示,而應引入「功利主義思維鏈」(Utilitarian CoT)或結構化的數據檢驗步驟,以確保決策的公平性與理性,防止模型因受單一案例敘事影響而產生系統性偏誤。

原始文獻資訊

英文標題:
Narrative over Numbers: The Identifiable Victim Effect and its Amplification Under Alignment and Reasoning in Large Language Models
作者:
Syed Rifat Raiyan
來源:
arXiv - Computers and Society
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。