LLM 公平性評估:以實際對話行為取代標準化測試

arXiv - Computers and SocietyZeyu Tang, Sang T. Truong, Deonna Owens, Shreyas Sharma, Yibo Jacky Zhang, Brando Miranda, Sanmi Koyejo

本文提出 MAC-Fairness 框架,透過多代理對話評估 LLM 公平性,證明標準化測試受提示構造影響,實際對話行為更能揭示模型特定公平性特徵。

AI 幫你先抓重點

AI 重點 1

提示構造對標準化測試結果的影響遠超公平性本身

滑鼠懸停看 AI 判斷理由
研究者若僅依賴標準化測試,可能因提示設計而得出錯誤的公平性結論;此發現提醒我們必須採用更真實的對話評估,以避免偏差。
AI 重點 2

多代理對話框架揭示模型在身份變化下的行為一致性

滑鼠懸停看 AI 判斷理由
此洞察說明公平性評估應考慮動態互動與身份多樣性,能指導設計更具代表性與可重現性的測試環境。

核心研究發現

  1. 1

    標準化測試分數的變異主要由表層提示構造決定,與公平性問題無關。

  2. 2

    在 MAC-Fairness 對話中,模型的立場保持度與對同儕的接受度可被量化,並在 800 萬對話中顯示穩定的模型特定行為簽名。

  3. 3

    這些行為簽名能跨不同公平性目標與評估方法泛化,提供標準化測試無法給出的證據。

對教育工作者的啟發

對於教育科技與機器學習實務工作者而言,本文強調不應單靠標準化測試評估 LLM 公平性,而應引入多代理對話框架進行在地行為評估。實務上,可先將現有的測試題目改造成對話種子,讓模型在多輪互動中表現;同時,設計多樣化身份配置,觀察模型在不同身份下的立場保持度與同儕接受度,進而辨識模型的公平性簽名。這種方法不僅能減少提示構造帶來的偏差,還能提供跨評估方法的可比性,為開發更具倫理性的 AI 系統提供實證依據。

原始文獻資訊

英文標題:
In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores
作者:
Zeyu Tang, Sang T. Truong, Deonna Owens, Shreyas Sharma, Yibo Jacky Zhang, Brando Miranda, Sanmi Koyejo
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。