ai assessment higher education edtech automated feedback

DeepReviewer 2.0：具備可審計性的可追溯代理式科學同儕審查系統

arXiv - Computers and SocietyYixuan Weng, Minjun Zhu, Qiujie Xie, Zhiyuan Ning, Shichen Li, Panzhong Lu, Zhen Lin, Enhao Gu, Qiyao Sun, Yue Zhang2026年4月14日

開發出一種基於代理人架構的審查系統，透過可追溯的證據與行動清單，提升自動化科學論文審查的品質與透明度。

AI 幫你先抓重點

AI 重點 1

從「生成式評論」轉向「可審計的證據鏈」

滑鼠懸停看 AI 判斷理由

傳統 AI 審查常被批評為「幻覺」或缺乏根據，此研究強調透過建立「主張-證據-風險」帳本，將 AI 從單純的文字生成器轉變為具備邏輯驗證能力的審查助手，這為 AI 在高風險學術評估中的應用提供了新範式。

AI 重點 2

強調「代理人架構」而非單純的模型微調

滑鼠懸停看 AI 判斷理由

研究顯示使用未經微調的 196B 大型模型，配合精密的流程控制與代理人工作流，其表現優於經過特定優化的模型，這證明了系統設計（System Design）在解決複雜邏輯任務時的重要性。

核心研究發現

1
DeepReviewer 2.0 在 ICLR 2025 的 134 份投稿測試中，其嚴格重大問題的覆蓋率達 37.26%，顯著優於 Gemini-3.1-Pro-preview 的 23.57%。
2
在與人類審查委員會進行的微平均盲測比較中，該系統贏得了 71.63% 的勝率，在所有自動化系統中排名第一。
3
系統採用「輸出契約」機制，能產生包含錨定註解、在地化證據及可執行後續行動的「可追溯審查包」，而非僅生成流暢的評論。

對教育工作者的啟發

雖然此研究針對學術論文，但其「證據錨定」與「可追溯性」的概念可延伸至教育評估領域。教育科技設計者在開發自動化作業批改或學習評量工具時，不應僅追求生成「流暢的評語」，而應模仿 DeepReviewer 的架構，要求 AI 必須標註出具體的錯誤位置（錨定）、提供對應的教材依據（證據），並給予具體的改進步驟（可執行行動），以建立學習者與教師對 AI 評分結果的信任感。

原始文獻資訊

英文標題：: DeepReviewer 2.0: A Traceable Agentic System for Auditable Scientific Peer Review
作者：: Yixuan Weng, Minjun Zhu, Qiujie Xie, Zhiyuan Ning, Shichen Li, Panzhong Lu, Zhen Lin, Enhao Gu, Qiyao Sun, Yue Zhang
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。