超越行為:為何 AI 評估需要一場認知革命

arXiv - Human-Computer InteractionAmir Konigsberg

本文主張 AI 研究應從僅關注輸出結果的「行為主義」轉向關注內部運作機制的「認知主義」評估範式。

AI 幫你先抓重點

AI 重點 1

從「結果導向」轉向「過程導向」的評估範式轉移。

滑鼠懸停看 AI 判斷理由
這對於理解 AI 的真實智能至關重要。僅看輸出結果(如正確答案)會掩蓋模型是否真正理解邏輯,這對於開發具備可靠推理能力的教育 AI 至關重要。
AI 重點 2

識別行為證據在智能歸因中的局限性。

滑鼠懸停看 AI 判斷理由
這提醒研究者,行為表現(Behavioral evidence)不足以支撐對系統認知能力的完整主張,必須引入類似認知心理學的方法來剖析 AI 的內部組織。

核心研究發現

  1. 1

    圖靈測試建立了一種行為主義的認識論,將「機器是否思考」簡化為「輸出是否與人類無異」,這限制了對 AI 內部機制的探討。

  2. 2

    目前的 AI 評估基礎設施過度依賴行為證據,導致研究者無法區分兩套雖然輸出相同、但計算過程截然不同的系統。

  3. 3

    AI 領域正處於類似心理學歷史上的瓶頸期,若不進行認知革命,將無法對 AI 的智能屬性做出更深層的科學論證。

對教育工作者的啟發

對於教育科技開發者而言,這提供了重要的設計警示:在開發 AI 輔助學習工具(如 AI 導師)時,不應僅評估 AI 是否能給出正確答案,更應開發能監測與解釋 AI 推理過程的評估機制。在課程設計中,若要利用 AI 進行學習評量,必須考慮到 AI 的「黑箱」特性,設計能區分「模仿行為」與「真實理解」的評估任務,確保 AI 的反饋是基於正確的認知邏輯,而非僅是統計學上的機率模擬。

原始文獻資訊

英文標題:
Beyond Behavior: Why AI Evaluation Needs a Cognitive Revolution
作者:
Amir Konigsberg
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。