assessment ai edtech higher education learning design

AI時代的評量設計：辨識人類與聊天機器人差異化項目的方法

arXiv - Human-Computer InteractionLicol Zeinfeld, Alona Strugatski, Ziva Bar-Dov, Ron Blonder, Shelley Rap, Giora Alexandron2026年3月26日

提出一套基於差異項功能分析的統計方法，能辨識人類與大型語言模型在評量題目上系統性差異，協助設計更抗AI作弊的考題。

AI 幫你先抓重點

AI 重點 1

DIF分析作為評量項目AI脆弱性檢測的核心工具

滑鼠懸停看 AI 判斷理由

它提供理論基礎、統計嚴謹的檢測方式，能客觀辨識人類與LLM在回答上系統性差異，遠超傳統描述性基準。

AI 重點 2

識別影響LLM表現的題目維度（推理、知識整合等）

滑鼠懸停看 AI 判斷理由

了解哪些題目特徵易被AI解答，能幫助教育工作者設計需要多步推理、情境應用或跨領域連結的題型，從而降低AI優勢。

核心研究發現

1
利用差異項功能分析（DIF）結合負控制與項目總分相關性分析，能客觀辨識出人類與LLM在回答上存在顯著差異的題目。
2
實驗顯示，六款主流聊天機器人（ChatGPT-4o、5.2、Gemini 1.5、3 Pro、Claude 3.5、4.5 Sonnet）在高中化學診斷測驗與大學入學考試中，存在多個高DIF分數的題目，表明這些題目易被AI利用。
3
主題專家對DIF標記題目進行分析，發現與推理、跨領域知識整合相關的題目更易被LLM正確回答，而純記憶或單純語言理解題目則較難。
4
負控制分析證實，DIF結果並非由樣本隨機波動造成，提升了方法的可靠性與可重複性。
5
此方法可直接應用於評量設計流程，協助設計師調整題目難度與內容，以降低AI作弊風險並維持評量效度。

對教育工作者的啟發

研究提供了一套可直接嵌入評量開發流程的DIF+負控制+項目總分相關性三重檢驗框架。實務工作者可先收集學生與AI的回答資料，利用本方法快速標記出高DIF題目，並由專家評估其內容特徵。若題目屬於易被AI解答的推理或知識整合型，則可改寫為需要多步推理、情境應用或跨領域連結的題型；若屬於純記憶型，可加入時間限制或即時反饋機制。此舉不僅降低AI作弊機會，也能維持或提升評量的學習導向與深度。

原始文獻資訊

英文標題：: Assessment Design in the AI Era: A Method for Identifying Items Functioning Differentially for Humans and Chatbots
作者：: Licol Zeinfeld, Alona Strugatski, Ziva Bar-Dov, Ron Blonder, Shelley Rap, Giora Alexandron
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。