利用幾何一致性預測LLM難度評估與人類評分者的分歧
arXiv - Computers and SocietyYo Ehara
提出一種不依賴生成時機機率信號,利用嵌入空間幾何一致性來預測LLM難度評估與人類評分者分歧的方法,並在CEFR句子難度測試中顯示更高AUC。
AI 幫你先抓重點
AI 重點 1
避免使用生成時機機率信號,降低跨模型比較難度。
滑鼠懸停看 AI 判斷理由
傳統方法需在生成過程收集機率,對不同LLM難以直接比較;本研究的幾何一致性方法可在任何模型上直接應用,提升評估的可擴展性與實務可行性。
AI 重點 2
利用嵌入空間的幾何一致性作為分歧判別指標。
滑鼠懸停看 AI 判斷理由
將難度視為序數尺度,透過嵌入向量的幾何關係捕捉評分不一致,提供更直觀且可解釋的分歧預測機制,對於自動化教材難度分級具有實際價值。
核心研究發現
- 1
方法不使用生成時機機率信號,而是利用ModernBERT等嵌入空間的幾何一致性來判斷可能分歧的評分。
- 2
在英語CEFR句子難度評估實驗中,該方法在GPT-OSS-120B和Qwen3-235B-A22B上均取得較高的AUC,優於傳統機率基準。
- 3
實驗證明,幾何一致性指標能有效捕捉LLM評分與人類評分者之間的差異,提供更可靠的分歧預測。
對教育工作者的啟發
將本方法嵌入LLM-as-a-Judge流程,可先預測可能分歧的評分,將其送回人工重新評估,從而大幅降低人力成本。使用ModernBERT等嵌入模型可跨模型通用,且幾何一致性指標易於解釋,方便教師或評估人員快速定位問題句子。
原始文獻資訊
- 英文標題:
- Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals
- 作者:
- Yo Ehara
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。