公平輸出,偏見內部:LLM 高風險決策中潛在偏見因果與非對稱
arXiv - Computers and SocietyJagdish Tripathy, Marcus Buckmann
LLM 在高風險決策中,輸出公平但內部仍保留並可被激活的偏見,且此偏見對不同族群非對稱影響
AI 幫你先抓重點
AI 重點 1
輸出公平並不等於內部無偏見,需同時檢視模型內部表示以避免被利用。
滑鼠懸停看 AI 判斷理由
因為被壓制的偏見可被重新激活,導致決策逆轉,僅檢查輸出會忽略這些隱藏風險,影響治理與信任。
AI 重點 2
潛在偏見對不同族群非對稱,意味著干預效果不均,需針對特定族群設計防護機制。
滑鼠懸停看 AI 判斷理由
了解非對稱性可協助設計針對性緩解措施,並在政策制定中調整公平度量,提升實務可行性。
核心研究發現
- 1
在匹配的抵押貸款申請中,LLM 的輸出層未顯示種族偏見,但內部層仍保留並放大種族相關表示。
- 2
透過激活導向與跨層干預,將被壓制的種族信息重新注入關鍵層,可導致近乎完全的決策逆轉。
- 3
這種潛在偏見對不同族群呈非對稱性:對一方族群的干預會大幅改變決策,而對另一方則影響甚微。
- 4
潛在偏見易受對抗性提示工程與參數高效微調影響,顯示其易被利用。
對教育工作者的啟發
教育科技工作者在設計 AI 驅動的決策工具時,應同時檢視模型內部表示,使用跨層干預測試潛在偏見;建立雙層評估框架;對於高風險領域,採用對抗性測試與參數微調監控;制定透明的公平性報告;培訓使用者識別內部偏見的風險。
原始文獻資訊
- 英文標題:
- Fair outputs, Biased Internals: Causal Potency and Asymmetry of Latent Bias in LLMs for High-Stakes Decisions
- 作者:
- Jagdish Tripathy, Marcus Buckmann
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。