SWE-chat:真實使用者與 AI 編碼代理互動資料集

arXiv - Computers and SocietyJoachim Baumann, Vishakh Padmakumar, Xiang Li, John Yang, Diyi Yang, Sanmi Koyejo

本文首次公開 6,000 個真實編碼代理會話資料集,揭示代理在實務開發中的使用模式、效能與安全風險。

AI 幫你先抓重點

AI 重點 1

真實開發環境中,AI 代理的程式碼往往不被直接採用,使用者需大量介入。

滑鼠懸停看 AI 判斷理由
此發現提醒研究者與實務工作者,單純提升代理產能不足以提升實際效能;必須設計更有效的人機協作機制與回饋迴路。
AI 重點 2

代理產生的程式碼安全風險高於人類編寫的程式碼。

滑鼠懸停看 AI 判斷理由
這一點凸顯在教育與實務中引入 AI 代理時,必須加強安全審查與自動化漏洞偵測,否則可能導致更嚴重的安全問題。

核心研究發現

  1. 1

    資料集包含 6,000 個會話,超過 63,000 個使用者提示與 355,000 次代理工具呼叫,為首個大規模真實使用者互動資料集。

  2. 2

    編碼模式呈雙峰分布:41% 會話中代理完成大部分提交程式碼(vibe coding),23% 會話則完全由人類編寫。

  3. 3

    僅 44% 的代理產生程式碼最終被納入使用者提交,顯示代理在自然環境中的效率低下。

  4. 4

    代理編寫的程式碼比人類編寫的程式碼更易產生安全漏洞,且使用者在 44% 的互動回合中對代理輸出進行修正、失敗報告或中斷。

  5. 5

    SWE-chat 的持續更新機制使資料集能自動擷取公開倉庫中的新會話,提供持續的實證基礎。

對教育工作者的啟發

1) 在開發課程中加入實際代理互動案例,讓學生體驗人機協作與迴圈修正流程;2) 建立安全審查機制,教導學生如何辨識與修正 AI 產生的漏洞;3) 利用 SWE-chat 資料集進行實驗,測試不同介面設計對使用者介入頻率與程式碼品質的影響;4) 推動工具開發,提供即時回饋與自動化測試,降低使用者修正成本;5) 在課程評量中加入人機協作的元件,促進學生的 metacognition 與 SRL。

原始文獻資訊

英文標題:
SWE-chat: Coding Agent Interactions From Real Users in the Wild
作者:
Joachim Baumann, Vishakh Padmakumar, Xiang Li, John Yang, Diyi Yang, Sanmi Koyejo
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。