LLM 能估算學生困難嗎？人機難度對齊與熟練度模擬在題目難度預測中的應用

arXiv - Computers and SocietyMing Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou2026年5月12日

研究顯示大型語言模型雖具備超人解題能力，但難以準確估算人類學習者的困難度，且模型規模擴大並不提升對齊度。

AI 幫你先抓重點

AI 重點 1

LLM 雖能解題，但對學生困難的感知仍有限，提醒教育工作者勿盲目依賴模型預測難度。

滑鼠懸停看 AI 判斷理由

研究證明模型在大規模時更易偏離人類感受，若直接用於難度設定可能導致不適當的課程設計，故需結合教師判斷或其他評估工具。

AI 重點 2

模型規模擴大並不保證難度對齊度提升，實務上應以多模型或人機協同方式驗證難度評估。

滑鼠懸停看 AI 判斷理由

更大模型更易聚焦於機器共識，缺乏人類內省，故需透過教師專業判斷或學生回饋來校正模型預測，確保評量準確。

教育工作者在設計評量或課程時，應結合教師專業判斷與學生實際表現，避免單靠大型語言模型預測題目難度。可先用小型模型或多模型平均，再由教師根據學生回饋調整難度；同時在提示中加入自我內省指令，促使模型更真實模擬不同熟練度。若需自動化，建議搭配人機協同流程，並持續收集學生學習數據以校正模型預測。

英文標題：: Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
作者：: Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。