MultEval:協助 LLM 擔任評審時的協同對齊評估標準
arXiv - Human-Computer InteractionCharles Chiang, Simret Gebreegziabher, Annalisa Szymanski, Yukun Yang, Hyo Jin Do, Zahra Ashktorab, Werner Geyer, Toby Li, Diego Gomez-Zara
提出 MultEval 系統,協助多方共同制定、協商並修訂 LLM 評審標準,提升透明度與一致性。
AI 幫你先抓重點
AI 重點 1
MultEval 透過共識建構理論,將人類判斷透明化,降低評估偏差。
滑鼠懸停看 AI 判斷理由
此功能將主觀判斷轉化為可機器閱讀的標準,提升評估可重複性與信任度,對於設計自動化評審系統至關重要。
AI 重點 2
協同制定標準的過程揭示,單一評估者無法捕捉多元價值,協作可提升評估品質。
滑鼠懸停看 AI 判斷理由
透過多方協作,能納入不同專業與價值觀,避免單一偏見,對教育評量設計與公平性產生深遠影響。
核心研究發現
- 1
研究發現:在 LLM-as-a-judge 評估中,單一人制定標準會帶來偏見,且多方協商過程難以達成共識。
- 2
MultEval 系統可讓多位評估者以共識建構理論辨識分歧,並透過範例與提案歷史迭代修訂標準。
- 3
案例研究顯示,專業團隊使用 MultEval 共同撰寫標準,協調與共識機制促進標準演進。
對教育工作者的啟發
實務教育工作者可先召集多元背景的評估者,使用 MultEval 進行標準草擬,透過共識建構理論辨識分歧並記錄討論歷史。每次修訂都附上具體範例,確保標準可被 LLM 直接解讀。系統提供透明的判斷編碼流程,讓使用者能追蹤每項判斷的來源與演變,提升評估的可解釋性與可信度。最後,將修訂歷史與共識過程公開,促進外部審查與持續改進。
原始文獻資訊
- 英文標題:
- MultEval: Supporting Collaborative Alignment for LLM-as-a-Judge Evaluation Criteria
- 作者:
- Charles Chiang, Simret Gebreegziabher, Annalisa Szymanski, Yukun Yang, Hyo Jin Do, Zahra Ashktorab, Werner Geyer, Toby Li, Diego Gomez-Zara
- 來源:
- arXiv - Human-Computer Interaction
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。