利用幾何一致性預測LLM難度評估與人類評分者的分歧

arXiv - Computers and SocietyYo Ehara2026年5月13日

提出一種不依賴生成時機機率信號，利用嵌入空間幾何一致性來預測LLM難度評估與人類評分者分歧的方法，並在CEFR句子難度測試中顯示更高AUC。

AI 幫你先抓重點

AI 重點 1

避免使用生成時機機率信號，降低跨模型比較難度。

滑鼠懸停看 AI 判斷理由

傳統方法需在生成過程收集機率，對不同LLM難以直接比較；本研究的幾何一致性方法可在任何模型上直接應用，提升評估的可擴展性與實務可行性。

AI 重點 2

利用嵌入空間的幾何一致性作為分歧判別指標。

滑鼠懸停看 AI 判斷理由

將難度視為序數尺度，透過嵌入向量的幾何關係捕捉評分不一致，提供更直觀且可解釋的分歧預測機制，對於自動化教材難度分級具有實際價值。

將本方法嵌入LLM-as-a-Judge流程，可先預測可能分歧的評分，將其送回人工重新評估，從而大幅降低人力成本。使用ModernBERT等嵌入模型可跨模型通用，且幾何一致性指標易於解釋，方便教師或評估人員快速定位問題句子。

英文標題：: Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals
作者：: Yo Ehara
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。