利用幾何一致性預測LLM難度評估與人類評分者的分歧

arXiv - Computers and SocietyYo Ehara

提出一種不依賴生成時機機率信號,利用嵌入空間幾何一致性來預測LLM難度評估與人類評分者分歧的方法,並在CEFR句子難度測試中顯示更高AUC。

AI 幫你先抓重點

AI 重點 1

避免使用生成時機機率信號,降低跨模型比較難度。

滑鼠懸停看 AI 判斷理由
傳統方法需在生成過程收集機率,對不同LLM難以直接比較;本研究的幾何一致性方法可在任何模型上直接應用,提升評估的可擴展性與實務可行性。
AI 重點 2

利用嵌入空間的幾何一致性作為分歧判別指標。

滑鼠懸停看 AI 判斷理由
將難度視為序數尺度,透過嵌入向量的幾何關係捕捉評分不一致,提供更直觀且可解釋的分歧預測機制,對於自動化教材難度分級具有實際價值。

核心研究發現

  1. 1

    方法不使用生成時機機率信號,而是利用ModernBERT等嵌入空間的幾何一致性來判斷可能分歧的評分。

  2. 2

    在英語CEFR句子難度評估實驗中,該方法在GPT-OSS-120B和Qwen3-235B-A22B上均取得較高的AUC,優於傳統機率基準。

  3. 3

    實驗證明,幾何一致性指標能有效捕捉LLM評分與人類評分者之間的差異,提供更可靠的分歧預測。

對教育工作者的啟發

將本方法嵌入LLM-as-a-Judge流程,可先預測可能分歧的評分,將其送回人工重新評估,從而大幅降低人力成本。使用ModernBERT等嵌入模型可跨模型通用,且幾何一致性指標易於解釋,方便教師或評估人員快速定位問題句子。

原始文獻資訊

英文標題:
Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals
作者:
Yo Ehara
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。