RIFT:評分表失效模式分類與自動診斷

arXiv - Artificial IntelligenceZhengyang Qi, Charles Dickens, Derek Pham, Amanda Dsouza, Armin Parchami, Frederic Sala, Paroma Varma

提出 RIFT 分類法,系統化描述評分表失效模式,並開發自動診斷指標與人工標註一致性驗證。

AI 幫你先抓重點

AI 重點 1

RIFT 的三大類別框架,明確區分可靠性、內容效度與後果效度失效。

滑鼠懸停看 AI 判斷理由
此框架提供結構化的診斷視角,幫助研究者與實務者快速定位評分表失效的根源,對於提升評量品質至關重要。
AI 重點 2

自動化診斷指標與人工標註高度一致,F1 最高 0.86,證明可擴展性。

滑鼠懸停看 AI 判斷理由
顯示自動化工具能有效替代人工審核,降低成本並支持大規模模型訓練與評估的即時品質檢查。
AI 重點 3

八種失效模式的具體定義與實例,為實務設計者提供可操作的參考。

滑鼠懸停看 AI 判斷理由
具體案例使評量設計者能直接應用於題目與評分標準的修正,提升實務操作的可行性與效果。

核心研究發現

  1. 1

    RIFT 包含 8 個失效模式,分為可靠性失效、內容效度失效、後果效度失效三大類別。

  2. 2

    透過基於實證理論的迭代標註,從五個多樣化基準中抽取失效模式,直至無新模式出現。

  3. 3

    人工標註者之間達成 87% 的成對一致率,平均 Cohen's κ 為 0.64,證明分類具備可重複性。

  4. 4

    自動化評分表品質指標與人工失效模式標註高度相關,F1 分數最高達 0.86。

  5. 5

    RIFT 可用於快速診斷評分表設計缺陷,為 LLM 研發與評估提供可操作的品質檢查工具。

對教育工作者的啟發

RIFT 提供的失效模式分類與自動診斷指標,可幫助評量設計者快速定位評分表中的可靠性、內容或後果效度問題,並依據具體失效類型調整題目或評分標準。透過自動化工具,團隊能在大規模模型訓練或測試階段即時檢測評分表品質,降低人工審核成本,提升評量一致性與可信度。

原始文獻資訊

英文標題:
RIFT: A RubrIc Failure Mode Taxonomy and Automated Diagnostics
作者:
Zhengyang Qi, Charles Dickens, Derek Pham, Amanda Dsouza, Armin Parchami, Frederic Sala, Paroma Varma
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。