利用大型語言模型與樹狀機器學習演算法估算題目難度

arXiv - Computers and SocietyPooya Razavi, Sonya Powers

本研究探討使用大型語言模型(LLM)預測K-5數學及閱讀測驗題目難度之可行性,並發現基於特徵提取的策略優於直接估算。

AI 幫你先抓重點

AI 重點 1

基於特徵提取的 LLM 策略,能以高達 r = 0.87 的相關性準確預測 K-5 數學及閱讀測驗題目難度,優於直接估算。

滑鼠懸停看 AI 判斷理由
此結果直接點出研究的核心突破:透過 LLM 提取題目特徵,並結合樹狀機器學習模型,能大幅提升難度預測的準確性。這對於需要大量題目篩選的教育評量單位,具有立即且可行的應用價值,能有效降低實地測試成本。
AI 重點 2

直接使用 LLM 估算題目難度,在低年級的準確度較差,顯示模型對不同年級的題目有不同的表現。

滑鼠懸停看 AI 判斷理由
此發現提醒讀者,即使 LLM 表現優異,仍需注意模型在不同年級的泛化能力。在實際應用中,應針對不同年級的題目,建立或調整模型,以確保預測的準確性,避免過度依賴單一模型。

核心研究發現

  1. 1

    直接使用LLM估算題目難度與實際難度呈現中至強相關性,但準確度在低年級表現較差。

  2. 2

    基於特徵的策略,透過LLM提取認知及語言特徵,並利用樹狀機器學習模型預測難度,結果更為準確。

  3. 3

    基於特徵的策略獲得高達r = 0.87的相關性,且誤差估計低於直接LLM預測和基準回歸模型。

  4. 4

    研究結果突顯了LLM在簡化題目開發流程、減少大規模實地測試需求方面的潛力。

  5. 5

    結構化的特徵提取對於提升LLM預測題目難度的準確性至關重要。

對教育工作者的啟發

本研究為測驗開發者提供了一種利用大型語言模型預測題目難度的新途徑,可以有效降低實地測試的成本和時間。建議在實際應用中,採用基於特徵提取的策略,並針對不同年級的題目進行模型調整,以提升預測的準確性。此外,研究提出的七步驟工作流程可作為實務參考,協助專業人員更有效地運用LLM於題目開發。

原始文獻資訊

英文標題:
Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms
作者:
Pooya Razavi, Sonya Powers
來源:
arXiv - Computers and Society
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。