從特徵模型到生成式 AI:建構式反應評分的效度證據

arXiv - Computers and SocietyJodi M. Casabianca, Daniel F. McCaffrey, Matthew S. Johnson, Naim Alper, Vladimir Zubenko

本文探討生成式 AI 在建構式反應評分中的應用,並提出一套最佳實務規範,以確保評分系統的效度與可信度。

AI 幫你先抓重點

AI 重點 1

生成式 AI 的透明度與一致性是關鍵挑戰。

滑鼠懸停看 AI 判斷理由
由於生成式 AI 的運作機制較為複雜,其評分結果的透明度較低,這可能影響使用者對評分結果的信任。此外,確保生成式 AI 在不同情境下保持一致的評分標準至關重要,否則會影響評分的公平性。
AI 重點 2

效度證據的收集在生成式 AI 評分中至關重要。

滑鼠懸停看 AI 判斷理由
相較於傳統的特徵模型,生成式 AI 需要更全面的效度證據來支持其評分結果的可靠性與準確性。這包括內容效度、標準效度、建構效度等,以確保評分系統能夠有效地衡量學生的學習成果。

核心研究發現

  1. 1

    生成式 AI 在建構式反應評分中,相較於傳統的特徵模型,能減少人工設計特徵的需求,並可能提供更佳的評分表現。

  2. 2

    由於生成式 AI 的透明度較低,其效度證據的收集比傳統評分系統更為重要,且需考量一致性的問題。

  3. 3

    研究比較了人工評分、基於特徵的自然語言處理 AI 評分引擎,以及生成式 AI 三種評分系統所需的效度證據。

  4. 4

    透過分析 6-12 年級學生論述文的資料,研究揭示了不同類型評分系統效度證據的收集方式及其複雜性。

  5. 5

    建立生成式 AI 評分系統的效度論證,需要仔細考量評分結果的解釋與應用,以確保其公平性與可靠性。

對教育工作者的啟發

教育工作者應在導入生成式 AI 評分系統時,特別關注其效度證據的收集與驗證。這包括確保評分系統的透明度、一致性,以及對評分結果進行持續的監控與調整。此外,應將 AI 評分結果與其他評量方式結合,以提供更全面的學生學習評估。同時,教師也應了解生成式 AI 的局限性,並在評分結果的解讀與應用上保持謹慎。

原始文獻資訊

英文標題:
From Feature-Based Models to Generative AI: Validity Evidence for Constructed Response Scoring
作者:
Jodi M. Casabianca, Daniel F. McCaffrey, Matthew S. Johnson, Naim Alper, Vladimir Zubenko
來源:
arXiv - Computers and Society
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。