LLM 能估算學生困難嗎?人機難度對齊與熟練度模擬在題目難度預測中的應用
arXiv - Computers and SocietyMing Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou
研究顯示大型語言模型雖具備超人解題能力,但難以準確估算人類學習者的困難度,且模型規模擴大並不提升對齊度。
AI 幫你先抓重點
AI 重點 1
LLM 雖能解題,但對學生困難的感知仍有限,提醒教育工作者勿盲目依賴模型預測難度。
滑鼠懸停看 AI 判斷理由
研究證明模型在大規模時更易偏離人類感受,若直接用於難度設定可能導致不適當的課程設計,故需結合教師判斷或其他評估工具。
AI 重點 2
模型規模擴大並不保證難度對齊度提升,實務上應以多模型或人機協同方式驗證難度評估。
滑鼠懸停看 AI 判斷理由
更大模型更易聚焦於機器共識,缺乏人類內省,故需透過教師專業判斷或學生回饋來校正模型預測,確保評量準確。
核心研究發現
- 1
在超過20個模型的實驗中,模型對難度的估計與人類學習者存在系統性偏差,且隨模型規模增大,估計趨向機器共識而非人類真實感受。
- 2
高性能模型在被明確提示模擬不同熟練度時,仍難以模擬學生的能力限制,導致難度預測失準。
- 3
模型缺乏自我內省,無法預測自身限制,顯示解題能力與對人類認知困難的理解並不等同。
對教育工作者的啟發
教育工作者在設計評量或課程時,應結合教師專業判斷與學生實際表現,避免單靠大型語言模型預測題目難度。可先用小型模型或多模型平均,再由教師根據學生回饋調整難度;同時在提示中加入自我內省指令,促使模型更真實模擬不同熟練度。若需自動化,建議搭配人機協同流程,並持續收集學生學習數據以校正模型預測。
原始文獻資訊
- 英文標題:
- Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
- 作者:
- Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。