CoEditor++:基於認知推理的指令式視覺編輯

arXiv - Human-Computer InteractionMinheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo

提出一種無需訓練的框架,將視覺編輯拆分為「要編輯什麼」與「如何編輯」,提升高層語義推理與視覺一致性。

AI 幫你先抓重點

AI 重點 1

CoEditor++ 提出一種無需訓練的視覺編輯框架,透過「要編輯什麼」與「如何編輯」兩階段認知流程,提升編輯的精準度與一致性。

滑鼠懸停看 AI 判斷理由
這代表著一個重要的突破,因為以往的視覺編輯模型通常需要大量的訓練數據。CoEditor++ 的訓練無須性大幅降低了開發門檻,讓教育科技開發者更容易將其應用於互動式教材,例如讓學生透過自然語言指令修改圖像,並即時觀察結果,提升學習體驗。
AI 重點 2

CoEditor++ 在視覺一致性方面,優於現有的開源及部分封閉源模型(如 Nano Banana Pro、GPT-4o),即使在指令遵循上表現相近。

滑鼠懸停看 AI 判斷理由
視覺一致性是圖像編輯的關鍵指標,尤其在教育應用中,不一致的編輯結果可能造成學習上的混淆。CoEditor++ 在此方面的優勢,意味著它能提供更可靠、更專業的視覺編輯體驗,對於需要精確視覺呈現的教育內容(如科學圖解、歷史圖像)至關重要。

核心研究發現

  1. 1

    CoEditor++ 透過兩階段認知流程(what-to-edit 與 how-to-edit)與反思式自選機制,實現細粒度且可解釋的編輯結果。

  2. 2

    該框架完全基於開源組件,無需額外訓練或微調,保證透明度與跨領域適用性。

  3. 3

    在 SmartEdit 與 AltBear 基準上,CoEditor++ 取得領先的編輯效能,特別在視覺一致性方面顯著優於其他開源模型。

  4. 4

    與封閉源模型(如 Nano Banana Pro、GPT‑4o)相比,CoEditor++ 在指令遵循上保持相近水平,同時在視覺一致性上有顯著提升。

  5. 5

    廣泛的消融實驗證實了兩階段認知設計與自選機制對整體性能的關鍵貢獻。

對教育工作者的啟發

教育科技開發者可借鑑 CoEditor++ 的兩階段認知框架,將複雜指令拆解為「要改什麼」與「如何改」,提升模型解釋性與一致性。此方法不需額外訓練,降低開發門檻,適合快速原型與跨領域應用。對於課程設計者而言,可將此框架嵌入互動式教材,讓學生以自然語言描述想要的視覺變化,並即時得到可解釋的編輯結果,促進學生的認知推理與自我監控。

原始文獻資訊

英文標題:
CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning
作者:
Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。