HAI-Eval:衡量人機協作編程中的協同效應
arXiv - Human-Computer InteractionHanjun Luo, Chiming Ni, Jiaheng Wen, Zhimu Huang, Yiran Wang, Bingduo Liao, Sylvia Chung, Yingbin Jin, Xinfeng Li, Wenyuan Xu, XiaoFeng Wang, Hanan Salam
本文提出 HAI-Eval 基準測試,旨在透過「協作必要型」任務評估人類與 AI 在編程任務中的協同效應。
AI 幫你先抓重點
AI 重點 1
挑戰傳統的「人類主導、工具輔助」層級觀念
滑鼠懸停看 AI 判斷理由
傳統觀點認為 AI 僅是執行工具,但研究顯示戰略突破可能由 AI 發起,這要求我們重新定義人機協作中的角色分配與認知分工。
AI 重點 2
從評估「單體能力」轉向評估「協作能力」
滑鼠懸停看 AI 判斷理由
隨著 AI 融入工作流,單純測試人類或 AI 的獨立表現已不足夠,未來教育與評估應聚焦於如何優化兩者結合後的系統性表現。
核心研究發現
- 1
在單獨使用 LLM 或無 AI 輔助的人類參與者情況下,任務通過率極低,分別僅為 0.67% 與 18.89%。
- 2
透過人機協作,任務通過率顯著提升至 31.11%,展現了協同作業的潛力。
- 3
研究發現了一種新興的「共同推理」夥伴關係,戰略性的突破可能源自人類或 AI 雙方。
- 4
HAI-Eval 利用 45 種模板動態生成任務,並提供標準化 IDE 與 450 個任務實例以確保評估的生態效度。
對教育工作者的啟發
對於課程設計者而言,這項研究建議應從「教授單一技能」轉向「教授協作策略」。在編程或複雜問題解決的教學中,不應僅訓練學生獨立解題,而應設計需要與 AI 進行「共同推理」的任務,培養學生如何引導 AI、解讀 AI 輸出並進行戰略性調整的能力。評估方式也應從單純的結果正確性,轉向觀察學生如何與 AI 互動以達成複雜目標的過程。
原始文獻資訊
- 英文標題:
- HAI-Eval: Measuring Human-AI Synergy in Collaborative Coding
- 作者:
- Hanjun Luo, Chiming Ni, Jiaheng Wen, Zhimu Huang, Yiran Wang, Bingduo Liao, Sylvia Chung, Yingbin Jin, Xinfeng Li, Wenyuan Xu, XiaoFeng Wang, Hanan Salam
- 來源:
- arXiv - Human-Computer Interaction
- AI 摘要模型:
- /models/gemma-4-26B-A4B-it
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。