Xpertbench:以評分規範評估專家級任務

arXiv - Artificial IntelligenceXue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu

建立高保真度專家領域基準XpertBench,並用ShotJudge評估LLM在80類專業任務中的表現,揭示LLM仍有約66%成功率的專家差距。

AI 幫你先抓重點

AI 重點 1

ShotJudge提供可擴展且客觀的評估機制,克服傳統自評偏差。

滑鼠懸停看 AI 判斷理由
ShotJudge利用少量專家示例校準LLM評審,能在大規模測試中保持與人類評估一致性,為未來專業AI評估提供可重複的框架。
AI 重點 2

XpertBench揭示LLM在專業領域仍存在顯著表現差距,提示AI尚未達到專家級水平。

滑鼠懸停看 AI 判斷理由
實驗結果顯示最高成功率僅66%,平均分數55%,且量化推理與語言綜合能力呈現非重疊優勢,說明LLM在不同專業任務上的能力仍需針對性提升。

核心研究發現

  1. 1

    XpertBench包含1,346項跨80類別的專業任務,來源於1,000+專家提交,覆蓋金融、醫療、法律、教育、STEM與人文領域,確保生態效度。

  2. 2

    每項任務配備15-40個加權檢查點的詳細評分規範,提升評估專業嚴謹度。

  3. 3

    ShotJudge利用LLM評審並以專家少量示例校準,減少自我報酬偏差,實現可擴展且符合人類評估的評分。

  4. 4

    實驗顯示即使是最先進的LLM,其在XpertBench上的最高成功率僅約66%,平均分數約55%,且不同領域表現差異顯著。

對教育工作者的啟發

教育工作者可利用XpertBench作為專業能力測試,設計以評分規範為基礎的自評與同儕評估;ShotJudge可作為自動評分工具,減少人工成本;同時,研究者可根據領域差異調整LLM訓練,提升量化推理或語言綜合能力。

原始文獻資訊

英文標題:
Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation
作者:
Xue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。