AI 評估隨機對照試驗原則與指引
arXiv - Computers and SocietyChristopher Kelly, Angelica Chowdhury, Alexandra Campili, Bimpe Ayoola, Devin Barbour, Thomas Chen Dawson, Ze Shen Chin, Rokas Gipi\v{s}kis
提出一套包含五大原則與三十三條具體指引的 AI 評估 RCT 框架,強調人類表現、因果推論與透明度,並針對 AI 特有挑戰提供實務解決方案。
AI 幫你先抓重點
AI 重點 1
AI 評估必以人類表現為核心,而非單純模型輸出
滑鼠懸停看 AI 判斷理由
此觀點改變了傳統 AI 評估方式,強調實際使用者效能,讓研究者能更真實衡量 AI 對學習成效的影響,進而設計更符合教育需求的介入。
AI 重點 2
透明度與可重複性成為 AI RCT 的關鍵指標
滑鼠懸停看 AI 判斷理由
透過分級透明度框架,研究者能公開實驗設計、數據與程式碼,降低偏差與重複性危機,提升研究可信度,對教育科技產品的實際落地具有重要意義。
核心研究發現
- 1
提出五大原則(四項效度原則+透明度)並轉化為 33 條具體指引,適用於 AI 評估 RCT;
- 2
框架將評估焦點從模型輸出轉向人類表現,並正式化因果推論與實務重要性評估;
- 3
納入 AI 專屬挑戰,如模型版本管理、人機互動動態、污染與溢出效應,以及公平影響評估;
- 4
提供分級透明度與可重複性框架,促進研究可驗證與可比性。
對教育工作者的啟發
教育工作者與課程設計者可依此框架設計 AI 工具評估實驗,首先確定人類表現指標(如學習成效、滿意度)並與模型輸出分離;其次,採用分級透明度指引,公開實驗設計、數據與程式碼,確保可重複性;再次,針對 AI 特有問題(模型版本變動、使用者互動動態、污染與溢出效應)制定控制策略,避免結果偏差;最後,利用異質性分析與實務重要性評估,了解不同學習者群體對 AI 工具的差異化影響,進而調整教學設計與資源配置。這些步驟能提升 AI 工具在實際教學環境中的有效性與公平性。
原始文獻資訊
- 英文標題:
- Principles and Guidelines for Randomized Controlled Trials in AI Evaluation
- 作者:
- Christopher Kelly, Angelica Chowdhury, Alexandra Campili, Bimpe Ayoola, Devin Barbour, Thomas Chen Dawson, Ze Shen Chin, Rokas Gipi\v{s}kis
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。