MultEval:協助 LLM 擔任評審時的協同對齊評估標準

arXiv - Human-Computer InteractionCharles Chiang, Simret Gebreegziabher, Annalisa Szymanski, Yukun Yang, Hyo Jin Do, Zahra Ashktorab, Werner Geyer, Toby Li, Diego Gomez-Zara

提出 MultEval 系統,協助多方共同制定、協商並修訂 LLM 評審標準,提升透明度與一致性。

AI 幫你先抓重點

AI 重點 1

MultEval 透過共識建構理論,將人類判斷透明化,降低評估偏差。

滑鼠懸停看 AI 判斷理由
此功能將主觀判斷轉化為可機器閱讀的標準,提升評估可重複性與信任度,對於設計自動化評審系統至關重要。
AI 重點 2

協同制定標準的過程揭示,單一評估者無法捕捉多元價值,協作可提升評估品質。

滑鼠懸停看 AI 判斷理由
透過多方協作,能納入不同專業與價值觀,避免單一偏見,對教育評量設計與公平性產生深遠影響。

核心研究發現

  1. 1

    研究發現:在 LLM-as-a-judge 評估中,單一人制定標準會帶來偏見,且多方協商過程難以達成共識。

  2. 2

    MultEval 系統可讓多位評估者以共識建構理論辨識分歧,並透過範例與提案歷史迭代修訂標準。

  3. 3

    案例研究顯示,專業團隊使用 MultEval 共同撰寫標準,協調與共識機制促進標準演進。

對教育工作者的啟發

實務教育工作者可先召集多元背景的評估者,使用 MultEval 進行標準草擬,透過共識建構理論辨識分歧並記錄討論歷史。每次修訂都附上具體範例,確保標準可被 LLM 直接解讀。系統提供透明的判斷編碼流程,讓使用者能追蹤每項判斷的來源與演變,提升評估的可解釋性與可信度。最後,將修訂歷史與共識過程公開,促進外部審查與持續改進。

原始文獻資訊

英文標題:
MultEval: Supporting Collaborative Alignment for LLM-as-a-Judge Evaluation Criteria
作者:
Charles Chiang, Simret Gebreegziabher, Annalisa Szymanski, Yukun Yang, Hyo Jin Do, Zahra Ashktorab, Werner Geyer, Toby Li, Diego Gomez-Zara
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。