LLM 作為審稿人:評估其能力、分歧度與對提示注入的抵抗力

arXiv - Computers and SocietyLingyao Li, Junjie Xiong, Changjia Zhu, Runlong Yu, Chen Chen, Junyu Wang, Renkai Ma, Zhicong Lu

本研究系統性評估了 12 種大型語言模型在學術論文審稿中的評分準確性、與人類的分歧以及面對惡意提示注入攻擊的脆弱性。

AI 幫你先抓重點

AI 重點 1

AI 審稿存在「過度樂觀」與「風格單一化」的內在偏見

滑鼠懸停看 AI 判斷理由
這提醒我們在自動化評量系統中,AI 可能會掩蓋學術品質的真實差異,並以一種缺乏深度與多樣性的語言進行評價,這會影響學術評鑑的嚴謹性。
AI 重點 2

提示注入攻擊(Prompt Injection)對 AI 評量系統構成嚴重安全威脅

滑鼠懸停看 AI 判斷理由
這顯示出將 AI 直接導入高風險決策(如學術錄取)時,必須建立強大的防禦機制,否則評量過程極易被惡意操縱,導致公平性崩潰。

核心研究發現

  1. 1

    LLM 在評分上存在系統性偏差,傾向於給予較弱的論文過高的評分,且在評估重點上與人類審稿人不同。

  2. 2

    AI 產出的評論篇幅比人類長兩到三倍,但詞彙多樣性較低,且使用更為標準化與單一的詞彙。

  3. 3

    模型在評估維度上存在失衡,容易低估「清晰度」的重要性,卻過度強調「可重複性」的評分。

  4. 4

    LLM 極易受到隱形字體映射攻擊,簡單的隱藏指令即可將低分論文提升至錄取水準,且不同模型家族的抵抗力差異極大。

對教育工作者的啟發

對於開發自動化評量工具的教育科技工作者而言,本研究提供了重要的警示:不可盲目信任 AI 的評分結果。在設計 AI 輔助評量系統時,應採取「人機協作」模式而非「AI 替代」模式。具體建議包括:1. 建立多維度的校準機制,修正 AI 傾向給予高分的偏差;2. 強化系統對隱形字體或惡意指令的過濾能力;3. 針對 AI 產出內容的詞彙多樣性進行監控,避免評語過於公式化,以確保回饋的品質與深度。

原始文獻資訊

英文標題:
LLM-as-a-Reviewer: Benchmarking Their Ability, Divergence, and Prompt Injection Resistance as Paper Reviewers
作者:
Lingyao Li, Junjie Xiong, Changjia Zhu, Runlong Yu, Chen Chen, Junyu Wang, Renkai Ma, Zhicong Lu
來源:
arXiv - Computers and Society
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。