大型語言模型在道德判斷中的性別與代詞偏見

arXiv - Computers and SocietyGustavo L\'ucius Fernandes, Jeiverson C. V. M. Santos, Pedro O. S. Vaz-de-Melo

研究顯示 LLM 在道德公平判斷上因代詞、數量與性別標記而產生顯著偏見,尤其非二元代詞被偏好,男性代詞被歧視。

AI 幫你先抓重點

AI 重點 1

代詞與性別標記對 LLM 道德判斷的偏見程度

滑鼠懸停看 AI 判斷理由
此發現揭示模型在處理語言層面細節時已內化社會偏見,對於設計公平的 AI 評估工具至關重要。
AI 重點 2

非二元代詞被一致偏好,男性代詞被不利評價

滑鼠懸停看 AI 判斷理由
這突顯性別偏見在 AI 判斷中的具體表現,對於教育評估與公平性設計提供警示。

核心研究發現

  1. 1

    LLM 在單數第三人稱句子中更易判斷為「公平」,而第二人稱則較少被評為公平。

  2. 2

    性別標記對判斷影響最大,非二元主語被一致偏好,男性主語則被不利評價。

  3. 3

    研究使用 550 個 ETHICS 基本句子,生成 26 個對照變體,總 14,850 句子,覆蓋多種代詞與人口統計標記。

  4. 4

    六大模型族(Grok、GPT、LLaMA、Gemma、DeepSeek、Mistral)均顯示統計平等差異(SPD)顯著偏差。

  5. 5

    這些偏差被推測源於訓練時的分佈與對齊偏差,提示需要針對道德 LLM 應用進行公平干預。

對教育工作者的啟發

本研究指出,教育工作者在使用 LLM 進行道德判斷或評分時,必須留意代詞與性別標記可能引入的偏見。建議在設計自動化評分系統前,先進行偏見審核,並使用多樣化的樣本語句進行模型校正。對於課程設計者,可將非二元代詞納入教材範例,促進學生對多元性別觀點的理解與批判性思考。政策制定者則應制定評估標準,要求 AI 系統在道德判斷任務中達到統計平等指標。

原始文獻資訊

英文標題:
Widespread Gender and Pronoun Bias in Moral Judgments Across LLMs
作者:
Gustavo L\'ucius Fernandes, Jeiverson C. V. M. Santos, Pedro O. S. Vaz-de-Melo
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。