公平輸出,偏見內部:LLM 高風險決策中潛在偏見因果與非對稱

arXiv - Computers and SocietyJagdish Tripathy, Marcus Buckmann

LLM 在高風險決策中,輸出公平但內部仍保留並可被激活的偏見,且此偏見對不同族群非對稱影響

AI 幫你先抓重點

AI 重點 1

輸出公平並不等於內部無偏見,需同時檢視模型內部表示以避免被利用。

滑鼠懸停看 AI 判斷理由
因為被壓制的偏見可被重新激活,導致決策逆轉,僅檢查輸出會忽略這些隱藏風險,影響治理與信任。
AI 重點 2

潛在偏見對不同族群非對稱,意味著干預效果不均,需針對特定族群設計防護機制。

滑鼠懸停看 AI 判斷理由
了解非對稱性可協助設計針對性緩解措施,並在政策制定中調整公平度量,提升實務可行性。

核心研究發現

  1. 1

    在匹配的抵押貸款申請中,LLM 的輸出層未顯示種族偏見,但內部層仍保留並放大種族相關表示。

  2. 2

    透過激活導向與跨層干預,將被壓制的種族信息重新注入關鍵層,可導致近乎完全的決策逆轉。

  3. 3

    這種潛在偏見對不同族群呈非對稱性:對一方族群的干預會大幅改變決策,而對另一方則影響甚微。

  4. 4

    潛在偏見易受對抗性提示工程與參數高效微調影響,顯示其易被利用。

對教育工作者的啟發

教育科技工作者在設計 AI 驅動的決策工具時,應同時檢視模型內部表示,使用跨層干預測試潛在偏見;建立雙層評估框架;對於高風險領域,採用對抗性測試與參數微調監控;制定透明的公平性報告;培訓使用者識別內部偏見的風險。

原始文獻資訊

英文標題:
Fair outputs, Biased Internals: Causal Potency and Asymmetry of Latent Bias in LLMs for High-Stakes Decisions
作者:
Jagdish Tripathy, Marcus Buckmann
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。