從特徵模型到生成式 AI:建構式反應評分的效度證據
arXiv - Computers and SocietyJodi M. Casabianca, Daniel F. McCaffrey, Matthew S. Johnson, Naim Alper, Vladimir Zubenko
本文探討生成式 AI 在建構式反應評分中的應用,並提出一套最佳實務規範,以確保評分系統的效度與可信度。
AI 幫你先抓重點
AI 重點 1
生成式 AI 的透明度與一致性是關鍵挑戰。
滑鼠懸停看 AI 判斷理由
由於生成式 AI 的運作機制較為複雜,其評分結果的透明度較低,這可能影響使用者對評分結果的信任。此外,確保生成式 AI 在不同情境下保持一致的評分標準至關重要,否則會影響評分的公平性。
AI 重點 2
效度證據的收集在生成式 AI 評分中至關重要。
滑鼠懸停看 AI 判斷理由
相較於傳統的特徵模型,生成式 AI 需要更全面的效度證據來支持其評分結果的可靠性與準確性。這包括內容效度、標準效度、建構效度等,以確保評分系統能夠有效地衡量學生的學習成果。
核心研究發現
- 1
生成式 AI 在建構式反應評分中,相較於傳統的特徵模型,能減少人工設計特徵的需求,並可能提供更佳的評分表現。
- 2
由於生成式 AI 的透明度較低,其效度證據的收集比傳統評分系統更為重要,且需考量一致性的問題。
- 3
研究比較了人工評分、基於特徵的自然語言處理 AI 評分引擎,以及生成式 AI 三種評分系統所需的效度證據。
- 4
透過分析 6-12 年級學生論述文的資料,研究揭示了不同類型評分系統效度證據的收集方式及其複雜性。
- 5
建立生成式 AI 評分系統的效度論證,需要仔細考量評分結果的解釋與應用,以確保其公平性與可靠性。
對教育工作者的啟發
教育工作者應在導入生成式 AI 評分系統時,特別關注其效度證據的收集與驗證。這包括確保評分系統的透明度、一致性,以及對評分結果進行持續的監控與調整。此外,應將 AI 評分結果與其他評量方式結合,以提供更全面的學生學習評估。同時,教師也應了解生成式 AI 的局限性,並在評分結果的解讀與應用上保持謹慎。
原始文獻資訊
- 英文標題:
- From Feature-Based Models to Generative AI: Validity Evidence for Constructed Response Scoring
- 作者:
- Jodi M. Casabianca, Daniel F. McCaffrey, Matthew S. Johnson, Naim Alper, Vladimir Zubenko
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。