CutVerse:媒體後製編輯的組合式 GUI 代理基準

arXiv - Human-Computer InteractionHaobo Hu, Xiangwu Guo, Zhiheng Chen, Difei Gao, Haotian Liu, Libiao Jin, Qi Mao

建立 CutVerse 基準,評估 GUI 代理在真實媒體後製工作流程中的表現,發現現有模型僅 36% 成功率。

AI 幫你先抓重點

AI 重點 1

基準揭示 Web 代理與專業媒體編輯之間的性能差距,凸顯需加入領域規劃模組。

滑鼠懸停看 AI 判斷理由
此洞察提醒研究者在設計代理時必須考慮工作流程的複雜性與專業知識,否則即使具備多模態能力也難以完成長期任務。
AI 重點 2

輕量級解析器能將螢幕錄影與交互日誌轉為結構化 GUI 動作軌跡,促進可擴展評估。

滑鼠懸停看 AI 判斷理由
此工具降低資料處理門檻,使研究者能快速建立大規模測試集,提升實驗可重複性與比較性。

核心研究發現

  1. 1

    CutVerse 收錄 186 個長期複雜任務,涵蓋 Premiere Pro、Photoshop 等 7 款專業應用。

  2. 2

    現有 GUI 代理在此基準上僅達 36.0% 任務成功率,顯示長期可靠性不足。

  3. 3

    雖然代理具備良好空間定位與多模態對齊,但在領域特定規劃與長期協調上仍有限。

對教育工作者的啟發

CutVerse 可作為評估自動化編輯工具的標準基準,幫助開發者快速定位代理在長期任務中的瓶頸。教育科技設計師可利用其多模態資料,設計跨媒體協作的學習模組,強化學生的實務操作與領域知識。輕量級解析器亦可擴充至其他專業軟體,促進大規模資料集建構,進而推動 AI 在創意領域的應用。

原始文獻資訊

英文標題:
CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing
作者:
Haobo Hu, Xiangwu Guo, Zhiheng Chen, Difei Gao, Haotian Liu, Libiao Jin, Qi Mao
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。