ai assessment learning science cognitive psychology edtech

超越行為：為何 AI 評估需要一場認知革命

arXiv - Human-Computer InteractionAmir Konigsberg2026年4月8日

本文主張 AI 研究應從僅關注輸出結果的「行為主義」轉向關注內部運作機制的「認知主義」評估範式。

AI 幫你先抓重點

AI 重點 1

從「結果導向」轉向「過程導向」的評估範式轉移。

滑鼠懸停看 AI 判斷理由

這對於理解 AI 的真實智能至關重要。僅看輸出結果（如正確答案）會掩蓋模型是否真正理解邏輯，這對於開發具備可靠推理能力的教育 AI 至關重要。

AI 重點 2

識別行為證據在智能歸因中的局限性。

滑鼠懸停看 AI 判斷理由

這提醒研究者，行為表現（Behavioral evidence）不足以支撐對系統認知能力的完整主張，必須引入類似認知心理學的方法來剖析 AI 的內部組織。

核心研究發現

1
圖靈測試建立了一種行為主義的認識論，將「機器是否思考」簡化為「輸出是否與人類無異」，這限制了對 AI 內部機制的探討。
2
目前的 AI 評估基礎設施過度依賴行為證據，導致研究者無法區分兩套雖然輸出相同、但計算過程截然不同的系統。
3
AI 領域正處於類似心理學歷史上的瓶頸期，若不進行認知革命，將無法對 AI 的智能屬性做出更深層的科學論證。

對教育工作者的啟發

對於教育科技開發者而言，這提供了重要的設計警示：在開發 AI 輔助學習工具（如 AI 導師）時，不應僅評估 AI 是否能給出正確答案，更應開發能監測與解釋 AI 推理過程的評估機制。在課程設計中，若要利用 AI 進行學習評量，必須考慮到 AI 的「黑箱」特性，設計能區分「模仿行為」與「真實理解」的評估任務，確保 AI 的反饋是基於正確的認知邏輯，而非僅是統計學上的機率模擬。

原始文獻資訊

英文標題：: Beyond Behavior: Why AI Evaluation Needs a Cognitive Revolution
作者：: Amir Konigsberg
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。