AcademiClaw:學生為 AI 設定挑戰

arXiv - Computers and SocietyJunjie Yu, Pengrui Lu, Weiye Si, Hongliang Lu, Jiabao Wu, Kaiwen Tao, Kun Wang, Lingyu Yang, Qiran Zhang, Xiuting Guo, Xuanyu Wang, Yang Wang, Yanjie Wang, Yi Yang, Zijian Hu, Ziyi Yang, Zonghan Zhou, Binghao Qiang, Borui Zhang, Chenning Li, Enchang Zhang, Feifan Chen, Feng Jian, Fengyin Sun, Hao Qiu, Hao Zheng, Haoran Zhu, Hongyu Liu, Jianbin Deng, Jiaxin Song, Jiaying Chi, Jiayou Shi, Jie Fang, Jinghui Zhong, Jingyu Zhou, Jinze Li, Junfeng Yi, Junyan Yu, Junzhi Xue, Ni Song, Pengyi Chen, Qi Chen, Quansheng Li, Rui Tao, Shenghai Gong, Shenhang Lu, Tianqi Shen, Tianxiang Zhu, Tiehan Kang, Tingyu Li, Wendi Wu, Xiao Shen, Xiao Zhou, Xiaotao Zhang, Xinrong Li, Xuankun Yang, Xun Zhang, Yan Li, Ye Lu, Yi Wang, Yibo Zhou, Yichi Zhang, Yihao Sun, Yijun Huang, Yixin Zhu, Yixuan Wu, Yuchen Sun, Yue Wu, Yuheng Sun, Yukun Li, Yutian Tu, Yuxuan Qin, Yuzhuo Wu, Zeyu Li, Zhengyu Lou, Zhenning Ran, Zizhu He, Pengfei Liu

提出以學生真實學術工作為基礎的雙語長期任務基準,評估 AI 代理在學術層面上的能力。

AI 幫你先抓重點

AI 重點 1

AI 代理在學術層面上的表現遠低於預期,通過率僅 55%,提示需要更專業的訓練與評估。

滑鼠懸停看 AI 判斷理由
此發現凸顯目前通用 AI 在面對真實學術需求時的局限,促使研究者開發專業化模型並設計更具挑戰性的基準,提升 AI 在高等教育中的實用性。
AI 重點 2

模型在 token 消耗與輸出質量之間缺乏一致性,表明單純追求長文本生成並不能保證任務完成。

滑鼠懸停看 AI 判斷理由
此洞察提醒實務工作者在評估 AI 產出時,不能僅以 token 數量作為效能指標,應結合任務完成度與質量評分,以避免誤導性優化。

核心研究發現

  1. 1

    建立了 80 個長期複雜任務,涵蓋 25+ 專業領域,並從 230 名學生提交的候選任務中篩選,最終經專家審查確定。

  2. 2

    六個前沿模型在 AcademiClaw 上的通過率最高也僅 55%,顯示 AI 在學術任務上的局限。

  3. 3

    研究揭示不同領域之間的能力邊界、模型行為策略差異,以及 token 消耗與輸出質量不成正比,提供細粒度診斷。

  4. 4

    16 個任務需要 CUDA GPU 執行,並在隔離的 Docker 沙盒中執行,評分使用多維 rubrics 與安全審核。

對教育工作者的啟發

此基準提供了真實學術任務的多樣化樣本,教育工作者可利用其設計更具挑戰性的專題式學習(PBL)課程,並透過多維評分與安全審核機制,評估學生與 AI 代理的協作成效。開發者可根據模型在不同領域的表現差異,調整訓練資料與策略,提升 AI 在專業領域的實用度。學術機構亦可將此基準納入教學評量,促進自主學習(SRL)與知識建構的深度。

原始文獻資訊

英文標題:
AcademiClaw: When Students Set Challenges for AI Agents
作者:
Junjie Yu, Pengrui Lu, Weiye Si, Hongliang Lu, Jiabao Wu, Kaiwen Tao, Kun Wang, Lingyu Yang, Qiran Zhang, Xiuting Guo, Xuanyu Wang, Yang Wang, Yanjie Wang, Yi Yang, Zijian Hu, Ziyi Yang, Zonghan Zhou, Binghao Qiang, Borui Zhang, Chenning Li, Enchang Zhang, Feifan Chen, Feng Jian, Fengyin Sun, Hao Qiu, Hao Zheng, Haoran Zhu, Hongyu Liu, Jianbin Deng, Jiaxin Song, Jiaying Chi, Jiayou Shi, Jie Fang, Jinghui Zhong, Jingyu Zhou, Jinze Li, Junfeng Yi, Junyan Yu, Junzhi Xue, Ni Song, Pengyi Chen, Qi Chen, Quansheng Li, Rui Tao, Shenghai Gong, Shenhang Lu, Tianqi Shen, Tianxiang Zhu, Tiehan Kang, Tingyu Li, Wendi Wu, Xiao Shen, Xiao Zhou, Xiaotao Zhang, Xinrong Li, Xuankun Yang, Xun Zhang, Yan Li, Ye Lu, Yi Wang, Yibo Zhou, Yichi Zhang, Yihao Sun, Yijun Huang, Yixin Zhu, Yixuan Wu, Yuchen Sun, Yue Wu, Yuheng Sun, Yukun Li, Yutian Tu, Yuxuan Qin, Yuzhuo Wu, Zeyu Li, Zhengyu Lou, Zhenning Ran, Zizhu He, Pengfei Liu
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。