教育科技中 AI 真實性標準的現代化:四個轉變

arXiv - Computers and SocietyDanielle R. Thomas, Conrad Borchers, Kirk P. Vanacore, Kenneth R. Koedinger, Ren\'e F. Kizilcec

本文探討了在教育領域使用生成式 AI 時,如何更可靠地建立和評估「真實性標準」,並提出了四個實務建議。

AI 幫你先抓重點

AI 重點 1

重新思考信度指標的應用。

滑鼠懸停看 AI 判斷理由
AI 認為,許多教育研究過於依賴單一的信度指標,而忽略了深入分析分歧背後的原因。這點對於提升 AI 在教育評估中的可靠性至關重要,避免錯誤的判斷。
AI 重點 2

LLM 註解的風險與應對。

滑鼠懸停看 AI 判斷理由
隨著 LLM 在教育領域的應用日益廣泛,AI 認為理解並減輕 LLM 註解中潛在的偏誤和循環驗證風險至關重要,以確保 AI 系統的公平性和準確性。

核心研究發現

  1. 1

    傳統的信度指標(如 Cohen's kappa)不應被視為機械式的接受閾值,而應作為診斷信號,以找出分歧並精煉構念。

  2. 2

    在建立真實性標準時,必須透明地報告評估者的專業知識、編碼手冊的開發過程、協調程序和分割規則。

  3. 3

    使用大型語言模型(LLM)進行註解時,需要進行偏誤審核和驗證流程,以減輕自動化偏誤和循環驗證的風險。

  4. 4

    除了信度統計之外,還應補充有效性和效能證據,包括不確定性感知標記(例如,為同一項目分配不同的標籤以捕捉細微差別)。

  5. 5

    高推論構念、偏斜標籤分佈和時序分割的多模式數據,會影響信度指標的應用和解釋,需要特別注意。

對教育工作者的啟發

教育工作者應將信度指標視為診斷工具,而非簡單的合格標準。在採用 AI 進行評估時,務必透明地記錄評估流程,並積極審查 AI 模型的偏誤。此外,應考慮使用不確定性感知標記,以更精準地捕捉學習者的表現。這有助於建立更可靠、更有效的 AI 教育系統,提升學習體驗。

原始文獻資訊

英文標題:
Modernizing Ground Truth: Four Shifts Toward Improving Reliability and Validity in AI in Education
作者:
Danielle R. Thomas, Conrad Borchers, Kirk P. Vanacore, Kenneth R. Koedinger, Ren\'e F. Kizilcec
來源:
arXiv - Computers and Society
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。