ai edtech assessment learning design higher education

從特徵模型到生成式 AI：建構式反應評分的效度證據

arXiv - Computers and SocietyJodi M. Casabianca, Daniel F. McCaffrey, Matthew S. Johnson, Naim Alper, Vladimir Zubenko2026年3月23日

本文探討生成式 AI 在建構式反應評分中的應用，並提出一套最佳實務規範，以確保評分系統的效度與可信度。

AI 幫你先抓重點

AI 重點 1

生成式 AI 的透明度與一致性是關鍵挑戰。

滑鼠懸停看 AI 判斷理由

由於生成式 AI 的運作機制較為複雜，其評分結果的透明度較低，這可能影響使用者對評分結果的信任。此外，確保生成式 AI 在不同情境下保持一致的評分標準至關重要，否則會影響評分的公平性。

AI 重點 2

效度證據的收集在生成式 AI 評分中至關重要。

滑鼠懸停看 AI 判斷理由

相較於傳統的特徵模型，生成式 AI 需要更全面的效度證據來支持其評分結果的可靠性與準確性。這包括內容效度、標準效度、建構效度等，以確保評分系統能夠有效地衡量學生的學習成果。

核心研究發現

1
生成式 AI 在建構式反應評分中，相較於傳統的特徵模型，能減少人工設計特徵的需求，並可能提供更佳的評分表現。
2
由於生成式 AI 的透明度較低，其效度證據的收集比傳統評分系統更為重要，且需考量一致性的問題。
3
研究比較了人工評分、基於特徵的自然語言處理 AI 評分引擎，以及生成式 AI 三種評分系統所需的效度證據。
4
透過分析 6-12 年級學生論述文的資料，研究揭示了不同類型評分系統效度證據的收集方式及其複雜性。
5
建立生成式 AI 評分系統的效度論證，需要仔細考量評分結果的解釋與應用，以確保其公平性與可靠性。

對教育工作者的啟發

教育工作者應在導入生成式 AI 評分系統時，特別關注其效度證據的收集與驗證。這包括確保評分系統的透明度、一致性，以及對評分結果進行持續的監控與調整。此外，應將 AI 評分結果與其他評量方式結合，以提供更全面的學生學習評估。同時，教師也應了解生成式 AI 的局限性，並在評分結果的解讀與應用上保持謹慎。

原始文獻資訊

英文標題：: From Feature-Based Models to Generative AI: Validity Evidence for Constructed Response Scoring
作者：: Jodi M. Casabianca, Daniel F. McCaffrey, Matthew S. Johnson, Naim Alper, Vladimir Zubenko
來源：: arXiv - Computers and Society
AI 摘要模型：: ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。