LLM 能估算學生困難嗎?人機難度對齊與熟練度模擬在題目難度預測中的應用

arXiv - Computers and SocietyMing Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou

研究顯示大型語言模型雖具備超人解題能力,但難以準確估算人類學習者的困難度,且模型規模擴大並不提升對齊度。

AI 幫你先抓重點

AI 重點 1

LLM 雖能解題,但對學生困難的感知仍有限,提醒教育工作者勿盲目依賴模型預測難度。

滑鼠懸停看 AI 判斷理由
研究證明模型在大規模時更易偏離人類感受,若直接用於難度設定可能導致不適當的課程設計,故需結合教師判斷或其他評估工具。
AI 重點 2

模型規模擴大並不保證難度對齊度提升,實務上應以多模型或人機協同方式驗證難度評估。

滑鼠懸停看 AI 判斷理由
更大模型更易聚焦於機器共識,缺乏人類內省,故需透過教師專業判斷或學生回饋來校正模型預測,確保評量準確。

核心研究發現

  1. 1

    在超過20個模型的實驗中,模型對難度的估計與人類學習者存在系統性偏差,且隨模型規模增大,估計趨向機器共識而非人類真實感受。

  2. 2

    高性能模型在被明確提示模擬不同熟練度時,仍難以模擬學生的能力限制,導致難度預測失準。

  3. 3

    模型缺乏自我內省,無法預測自身限制,顯示解題能力與對人類認知困難的理解並不等同。

對教育工作者的啟發

教育工作者在設計評量或課程時,應結合教師專業判斷與學生實際表現,避免單靠大型語言模型預測題目難度。可先用小型模型或多模型平均,再由教師根據學生回饋調整難度;同時在提示中加入自我內省指令,促使模型更真實模擬不同熟練度。若需自動化,建議搭配人機協同流程,並持續收集學生學習數據以校正模型預測。

原始文獻資訊

英文標題:
Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
作者:
Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。