公平輸出，偏見內部：LLM 高風險決策中潛在偏見因果與非對稱

arXiv - Computers and SocietyJagdish Tripathy, Marcus Buckmann2026年5月18日

LLM 在高風險決策中，輸出公平但內部仍保留並可被激活的偏見，且此偏見對不同族群非對稱影響

AI 幫你先抓重點

AI 重點 1

輸出公平並不等於內部無偏見，需同時檢視模型內部表示以避免被利用。

滑鼠懸停看 AI 判斷理由

因為被壓制的偏見可被重新激活，導致決策逆轉，僅檢查輸出會忽略這些隱藏風險，影響治理與信任。

AI 重點 2

潛在偏見對不同族群非對稱，意味著干預效果不均，需針對特定族群設計防護機制。

滑鼠懸停看 AI 判斷理由

了解非對稱性可協助設計針對性緩解措施，並在政策制定中調整公平度量，提升實務可行性。

教育科技工作者在設計 AI 驅動的決策工具時，應同時檢視模型內部表示，使用跨層干預測試潛在偏見；建立雙層評估框架；對於高風險領域，採用對抗性測試與參數微調監控；制定透明的公平性報告；培訓使用者識別內部偏見的風險。

英文標題：: Fair outputs, Biased Internals: Causal Potency and Asymmetry of Latent Bias in LLMs for High-Stakes Decisions
作者：: Jagdish Tripathy, Marcus Buckmann
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。