AI 評估隨機對照試驗原則與指引

arXiv - Computers and SocietyChristopher Kelly, Angelica Chowdhury, Alexandra Campili, Bimpe Ayoola, Devin Barbour, Thomas Chen Dawson, Ze Shen Chin, Rokas Gipi\v{s}kis

提出一套包含五大原則與三十三條具體指引的 AI 評估 RCT 框架,強調人類表現、因果推論與透明度,並針對 AI 特有挑戰提供實務解決方案。

AI 幫你先抓重點

AI 重點 1

AI 評估必以人類表現為核心,而非單純模型輸出

滑鼠懸停看 AI 判斷理由
此觀點改變了傳統 AI 評估方式,強調實際使用者效能,讓研究者能更真實衡量 AI 對學習成效的影響,進而設計更符合教育需求的介入。
AI 重點 2

透明度與可重複性成為 AI RCT 的關鍵指標

滑鼠懸停看 AI 判斷理由
透過分級透明度框架,研究者能公開實驗設計、數據與程式碼,降低偏差與重複性危機,提升研究可信度,對教育科技產品的實際落地具有重要意義。

核心研究發現

  1. 1

    提出五大原則(四項效度原則+透明度)並轉化為 33 條具體指引,適用於 AI 評估 RCT;

  2. 2

    框架將評估焦點從模型輸出轉向人類表現,並正式化因果推論與實務重要性評估;

  3. 3

    納入 AI 專屬挑戰,如模型版本管理、人機互動動態、污染與溢出效應,以及公平影響評估;

  4. 4

    提供分級透明度與可重複性框架,促進研究可驗證與可比性。

對教育工作者的啟發

教育工作者與課程設計者可依此框架設計 AI 工具評估實驗,首先確定人類表現指標(如學習成效、滿意度)並與模型輸出分離;其次,採用分級透明度指引,公開實驗設計、數據與程式碼,確保可重複性;再次,針對 AI 特有問題(模型版本變動、使用者互動動態、污染與溢出效應)制定控制策略,避免結果偏差;最後,利用異質性分析與實務重要性評估,了解不同學習者群體對 AI 工具的差異化影響,進而調整教學設計與資源配置。這些步驟能提升 AI 工具在實際教學環境中的有效性與公平性。

原始文獻資訊

英文標題:
Principles and Guidelines for Randomized Controlled Trials in AI Evaluation
作者:
Christopher Kelly, Angelica Chowdhury, Alexandra Campili, Bimpe Ayoola, Devin Barbour, Thomas Chen Dawson, Ze Shen Chin, Rokas Gipi\v{s}kis
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。