AI時代的評量設計:辨識人類與聊天機器人差異化項目的方法

arXiv - Human-Computer InteractionLicol Zeinfeld, Alona Strugatski, Ziva Bar-Dov, Ron Blonder, Shelley Rap, Giora Alexandron

提出一套基於差異項功能分析的統計方法,能辨識人類與大型語言模型在評量題目上系統性差異,協助設計更抗AI作弊的考題。

AI 幫你先抓重點

AI 重點 1

DIF分析作為評量項目AI脆弱性檢測的核心工具

滑鼠懸停看 AI 判斷理由
它提供理論基礎、統計嚴謹的檢測方式,能客觀辨識人類與LLM在回答上系統性差異,遠超傳統描述性基準。
AI 重點 2

識別影響LLM表現的題目維度(推理、知識整合等)

滑鼠懸停看 AI 判斷理由
了解哪些題目特徵易被AI解答,能幫助教育工作者設計需要多步推理、情境應用或跨領域連結的題型,從而降低AI優勢。

核心研究發現

  1. 1

    利用差異項功能分析(DIF)結合負控制與項目總分相關性分析,能客觀辨識出人類與LLM在回答上存在顯著差異的題目。

  2. 2

    實驗顯示,六款主流聊天機器人(ChatGPT-4o、5.2、Gemini 1.5、3 Pro、Claude 3.5、4.5 Sonnet)在高中化學診斷測驗與大學入學考試中,存在多個高DIF分數的題目,表明這些題目易被AI利用。

  3. 3

    主題專家對DIF標記題目進行分析,發現與推理、跨領域知識整合相關的題目更易被LLM正確回答,而純記憶或單純語言理解題目則較難。

  4. 4

    負控制分析證實,DIF結果並非由樣本隨機波動造成,提升了方法的可靠性與可重複性。

  5. 5

    此方法可直接應用於評量設計流程,協助設計師調整題目難度與內容,以降低AI作弊風險並維持評量效度。

對教育工作者的啟發

研究提供了一套可直接嵌入評量開發流程的DIF+負控制+項目總分相關性三重檢驗框架。實務工作者可先收集學生與AI的回答資料,利用本方法快速標記出高DIF題目,並由專家評估其內容特徵。若題目屬於易被AI解答的推理或知識整合型,則可改寫為需要多步推理、情境應用或跨領域連結的題型;若屬於純記憶型,可加入時間限制或即時反饋機制。此舉不僅降低AI作弊機會,也能維持或提升評量的學習導向與深度。

原始文獻資訊

英文標題:
Assessment Design in the AI Era: A Method for Identifying Items Functioning Differentially for Humans and Chatbots
作者:
Licol Zeinfeld, Alona Strugatski, Ziva Bar-Dov, Ron Blonder, Shelley Rap, Giora Alexandron
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。