JudgmentBench:比較評分量表與偏好評估在品質評定中的表現

arXiv - Computers and SocietyRussell Yang, Ruishi Chen, Pierce Kelaita, Riya Ranjan, Sibo Ma, Charles Dickens, Matthew Guillod, Megan Ma, Julian Nyarko

研究發現比較性偏好評估在品質排序的準確度上遠優於傳統評分量表,且標註效率更高。

AI 幫你先抓重點

AI 重點 1

評估方法論的選擇會極大程度影響品質排序的可靠性。

滑鼠懸停看 AI 判斷理由
這挑戰了許多教育或專業領域習慣使用「量表評分」的慣性。研究證明,要求評分者在兩個選項中選出較好的一個,比要求他們根據標準給出絕對分數更能反映真實的品質層次。
AI 重點 2

高專業領域的評估可以透過「比較」而非「定義」來優化。

滑鼠懸停看 AI 判斷理由
在法律、醫學等缺乏標準答案(Ground Truth)的領域,建立精確的評分標準極其困難。透過比較法,可以繞過定義標準的難題,直接利用專家的直覺與經驗來建立高品質的監督訊號。

核心研究發現

  1. 1

    在法律專業領域的測試中,比較性判斷(Pairwise Preference)的品質排序能力顯著優於評分量表(Rubric),Spearman 相關係數達 0.908,遠高於量表的 0.150。

  2. 2

    使用比較性判斷進行評估時,所需的標註時間不到傳統評分量表的一半,展現了更高的效率。

  3. 3

    此研究結果在人類評分者與大型語言模型(LLM)自動評分者身上均呈現一致的趨勢。

  4. 4

    研究釋出了 JudgmentBench 資料集,包含 30 個法律任務及由資深律師提供的 1,539 個量表分數與 1,530 個偏好判斷。

對教育工作者的啟發

對於開發 AI 自動評分系統或設計專業技能評量工具的設計者,建議在缺乏明確標準答案的複雜任務(如寫作、辯論、法律分析)中,優先採用「比較式評估」而非「量表式評估」。這不僅能提高評分的一致性與準確度,還能大幅降低專家標註的成本與時間。在設計學習科學相關的自動化回饋系統時,可以考慮讓 AI 學習「兩兩比較」的邏輯,而非強迫其學習複雜的量表定義,這將有助於提升 AI 對學生作品品質判斷的精準度。

原始文獻資訊

英文標題:
JudgmentBench: Comparing Rubric and Preference Evaluation for Quality Assessment
作者:
Russell Yang, Ruishi Chen, Pierce Kelaita, Riya Ranjan, Sibo Ma, Charles Dickens, Matthew Guillod, Megan Ma, Julian Nyarko
來源:
arXiv - Computers and Society
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。