利用大型語言模型與樹狀機器學習演算法估算題目難度

arXiv - Computers and SocietyPooya Razavi, Sonya Powers2026年3月10日

本研究探討使用大型語言模型（LLM）預測K-5數學及閱讀測驗題目難度之可行性，並發現基於特徵提取的策略優於直接估算。

AI 幫你先抓重點

AI 重點 1

基於特徵提取的 LLM 策略，能以高達 r = 0.87 的相關性準確預測 K-5 數學及閱讀測驗題目難度，優於直接估算。

滑鼠懸停看 AI 判斷理由

此結果直接點出研究的核心突破：透過 LLM 提取題目特徵，並結合樹狀機器學習模型，能大幅提升難度預測的準確性。這對於需要大量題目篩選的教育評量單位，具有立即且可行的應用價值，能有效降低實地測試成本。

AI 重點 2

直接使用 LLM 估算題目難度，在低年級的準確度較差，顯示模型對不同年級的題目有不同的表現。

滑鼠懸停看 AI 判斷理由

此發現提醒讀者，即使 LLM 表現優異，仍需注意模型在不同年級的泛化能力。在實際應用中，應針對不同年級的題目，建立或調整模型，以確保預測的準確性，避免過度依賴單一模型。

本研究為測驗開發者提供了一種利用大型語言模型預測題目難度的新途徑，可以有效降低實地測試的成本和時間。建議在實際應用中，採用基於特徵提取的策略，並針對不同年級的題目進行模型調整，以提升預測的準確性。此外，研究提出的七步驟工作流程可作為實務參考，協助專業人員更有效地運用LLM於題目開發。

英文標題：: Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms
作者：: Pooya Razavi, Sonya Powers
來源：: arXiv - Computers and Society
AI 摘要模型：: ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。