ai assessment learning design edtech collaboration

HAI-Eval：衡量人機協作編程中的協同效應

arXiv - Human-Computer InteractionHanjun Luo, Chiming Ni, Jiaheng Wen, Zhimu Huang, Yiran Wang, Bingduo Liao, Sylvia Chung, Yingbin Jin, Xinfeng Li, Wenyuan Xu, XiaoFeng Wang, Hanan Salam2026年5月18日

本文提出 HAI-Eval 基準測試，旨在透過「協作必要型」任務評估人類與 AI 在編程任務中的協同效應。

AI 幫你先抓重點

AI 重點 1

挑戰傳統的「人類主導、工具輔助」層級觀念

滑鼠懸停看 AI 判斷理由

傳統觀點認為 AI 僅是執行工具，但研究顯示戰略突破可能由 AI 發起，這要求我們重新定義人機協作中的角色分配與認知分工。

AI 重點 2

從評估「單體能力」轉向評估「協作能力」

滑鼠懸停看 AI 判斷理由

隨著 AI 融入工作流，單純測試人類或 AI 的獨立表現已不足夠，未來教育與評估應聚焦於如何優化兩者結合後的系統性表現。

核心研究發現

1
在單獨使用 LLM 或無 AI 輔助的人類參與者情況下，任務通過率極低，分別僅為 0.67% 與 18.89%。
2
透過人機協作，任務通過率顯著提升至 31.11%，展現了協同作業的潛力。
3
研究發現了一種新興的「共同推理」夥伴關係，戰略性的突破可能源自人類或 AI 雙方。
4
HAI-Eval 利用 45 種模板動態生成任務，並提供標準化 IDE 與 450 個任務實例以確保評估的生態效度。

對教育工作者的啟發

對於課程設計者而言，這項研究建議應從「教授單一技能」轉向「教授協作策略」。在編程或複雜問題解決的教學中，不應僅訓練學生獨立解題，而應設計需要與 AI 進行「共同推理」的任務，培養學生如何引導 AI、解讀 AI 輸出並進行戰略性調整的能力。評估方式也應從單純的結果正確性，轉向觀察學生如何與 AI 互動以達成複雜目標的過程。

原始文獻資訊

英文標題：: HAI-Eval: Measuring Human-AI Synergy in Collaborative Coding
作者：: Hanjun Luo, Chiming Ni, Jiaheng Wen, Zhimu Huang, Yiran Wang, Bingduo Liao, Sylvia Chung, Yingbin Jin, Xinfeng Li, Wenyuan Xu, XiaoFeng Wang, Hanan Salam
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。