獎勵失調：LLM 中的社會不良偏好

arXiv - Computers and SocietyGayane Ghazaryan, Esra D\"onmez2026年5月7日

建立社會偏好評估框架，發現現有獎勵模型常偏好不良選項，且存在偏見-語境權衡。

AI 幫你先抓重點

AI 重點 1

獎勵模型的社會偏好評估揭示了偏見與語境忠實度之間的權衡。

滑鼠懸停看 AI 判斷理由

此洞察顯示提升偏見緩解可能犧牲語境相關性，挑戰現行對齊策略，並指引未來模型調整需兼顧兩者。

AI 重點 2

將社會評估資料集轉換為成對偏好資料的框架，可直接測量模型內在社會偏好，為評估工具提供可擴展方法。

滑鼠懸停看 AI 判斷理由

此方法讓研究者能在指令跟隨測試之外，針對偏見、安全與倫理等具體社會維度進行透明、可追蹤的評估，提升LLM部署的責任感。

教育工作者在設計LLM輔助教學工具時，應同時評估模型在偏見、安全與倫理等社會維度的表現；可利用本文框架將教師制定的社會指引轉化為成對偏好，並在部署前進行測試；同時注意避免過度偏見緩解導致語境失真，保持教學內容的上下文一致性。

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。