AI時代的評量設計:辨識人類與聊天機器人差異化項目的方法
arXiv - Human-Computer InteractionLicol Zeinfeld, Alona Strugatski, Ziva Bar-Dov, Ron Blonder, Shelley Rap, Giora Alexandron
提出一套基於差異項功能分析的統計方法,能辨識人類與大型語言模型在評量題目上系統性差異,協助設計更抗AI作弊的考題。
AI 幫你先抓重點
AI 重點 1
DIF分析作為評量項目AI脆弱性檢測的核心工具
滑鼠懸停看 AI 判斷理由
它提供理論基礎、統計嚴謹的檢測方式,能客觀辨識人類與LLM在回答上系統性差異,遠超傳統描述性基準。
AI 重點 2
識別影響LLM表現的題目維度(推理、知識整合等)
滑鼠懸停看 AI 判斷理由
了解哪些題目特徵易被AI解答,能幫助教育工作者設計需要多步推理、情境應用或跨領域連結的題型,從而降低AI優勢。
核心研究發現
- 1
利用差異項功能分析(DIF)結合負控制與項目總分相關性分析,能客觀辨識出人類與LLM在回答上存在顯著差異的題目。
- 2
實驗顯示,六款主流聊天機器人(ChatGPT-4o、5.2、Gemini 1.5、3 Pro、Claude 3.5、4.5 Sonnet)在高中化學診斷測驗與大學入學考試中,存在多個高DIF分數的題目,表明這些題目易被AI利用。
- 3
主題專家對DIF標記題目進行分析,發現與推理、跨領域知識整合相關的題目更易被LLM正確回答,而純記憶或單純語言理解題目則較難。
- 4
負控制分析證實,DIF結果並非由樣本隨機波動造成,提升了方法的可靠性與可重複性。
- 5
此方法可直接應用於評量設計流程,協助設計師調整題目難度與內容,以降低AI作弊風險並維持評量效度。
對教育工作者的啟發
研究提供了一套可直接嵌入評量開發流程的DIF+負控制+項目總分相關性三重檢驗框架。實務工作者可先收集學生與AI的回答資料,利用本方法快速標記出高DIF題目,並由專家評估其內容特徵。若題目屬於易被AI解答的推理或知識整合型,則可改寫為需要多步推理、情境應用或跨領域連結的題型;若屬於純記憶型,可加入時間限制或即時反饋機制。此舉不僅降低AI作弊機會,也能維持或提升評量的學習導向與深度。
原始文獻資訊
- 英文標題:
- Assessment Design in the AI Era: A Method for Identifying Items Functioning Differentially for Humans and Chatbots
- 作者:
- Licol Zeinfeld, Alona Strugatski, Ziva Bar-Dov, Ron Blonder, Shelley Rap, Giora Alexandron
- 來源:
- arXiv - Human-Computer Interaction
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。