ai assessment learning design higher education edtech

LLM 公平性評估：以實際對話行為取代標準化測試

arXiv - Computers and SocietyZeyu Tang, Sang T. Truong, Deonna Owens, Shreyas Sharma, Yibo Jacky Zhang, Brando Miranda, Sanmi Koyejo2026年5月14日

本文提出 MAC-Fairness 框架，透過多代理對話評估 LLM 公平性，證明標準化測試受提示構造影響，實際對話行為更能揭示模型特定公平性特徵。

AI 幫你先抓重點

AI 重點 1

提示構造對標準化測試結果的影響遠超公平性本身

滑鼠懸停看 AI 判斷理由

研究者若僅依賴標準化測試，可能因提示設計而得出錯誤的公平性結論；此發現提醒我們必須採用更真實的對話評估，以避免偏差。

AI 重點 2

多代理對話框架揭示模型在身份變化下的行為一致性

滑鼠懸停看 AI 判斷理由

此洞察說明公平性評估應考慮動態互動與身份多樣性，能指導設計更具代表性與可重現性的測試環境。

核心研究發現

1
標準化測試分數的變異主要由表層提示構造決定，與公平性問題無關。
2
在 MAC-Fairness 對話中，模型的立場保持度與對同儕的接受度可被量化，並在 800 萬對話中顯示穩定的模型特定行為簽名。
3
這些行為簽名能跨不同公平性目標與評估方法泛化，提供標準化測試無法給出的證據。

對教育工作者的啟發

對於教育科技與機器學習實務工作者而言，本文強調不應單靠標準化測試評估 LLM 公平性，而應引入多代理對話框架進行在地行為評估。實務上，可先將現有的測試題目改造成對話種子，讓模型在多輪互動中表現；同時，設計多樣化身份配置，觀察模型在不同身份下的立場保持度與同儕接受度，進而辨識模型的公平性簽名。這種方法不僅能減少提示構造帶來的偏差，還能提供跨評估方法的可比性，為開發更具倫理性的 AI 系統提供實證依據。

原始文獻資訊

英文標題：: In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores
作者：: Zeyu Tang, Sang T. Truong, Deonna Owens, Shreyas Sharma, Yibo Jacky Zhang, Brando Miranda, Sanmi Koyejo
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。