LLM 作為審稿人:評估其能力、分歧度與對提示注入的抵抗力
arXiv - Computers and SocietyLingyao Li, Junjie Xiong, Changjia Zhu, Runlong Yu, Chen Chen, Junyu Wang, Renkai Ma, Zhicong Lu
本研究系統性評估了 12 種大型語言模型在學術論文審稿中的評分準確性、與人類的分歧以及面對惡意提示注入攻擊的脆弱性。
AI 幫你先抓重點
AI 重點 1
AI 審稿存在「過度樂觀」與「風格單一化」的內在偏見
滑鼠懸停看 AI 判斷理由
這提醒我們在自動化評量系統中,AI 可能會掩蓋學術品質的真實差異,並以一種缺乏深度與多樣性的語言進行評價,這會影響學術評鑑的嚴謹性。
AI 重點 2
提示注入攻擊(Prompt Injection)對 AI 評量系統構成嚴重安全威脅
滑鼠懸停看 AI 判斷理由
這顯示出將 AI 直接導入高風險決策(如學術錄取)時,必須建立強大的防禦機制,否則評量過程極易被惡意操縱,導致公平性崩潰。
核心研究發現
- 1
LLM 在評分上存在系統性偏差,傾向於給予較弱的論文過高的評分,且在評估重點上與人類審稿人不同。
- 2
AI 產出的評論篇幅比人類長兩到三倍,但詞彙多樣性較低,且使用更為標準化與單一的詞彙。
- 3
模型在評估維度上存在失衡,容易低估「清晰度」的重要性,卻過度強調「可重複性」的評分。
- 4
LLM 極易受到隱形字體映射攻擊,簡單的隱藏指令即可將低分論文提升至錄取水準,且不同模型家族的抵抗力差異極大。
對教育工作者的啟發
對於開發自動化評量工具的教育科技工作者而言,本研究提供了重要的警示:不可盲目信任 AI 的評分結果。在設計 AI 輔助評量系統時,應採取「人機協作」模式而非「AI 替代」模式。具體建議包括:1. 建立多維度的校準機制,修正 AI 傾向給予高分的偏差;2. 強化系統對隱形字體或惡意指令的過濾能力;3. 針對 AI 產出內容的詞彙多樣性進行監控,避免評語過於公式化,以確保回饋的品質與深度。
原始文獻資訊
- 英文標題:
- LLM-as-a-Reviewer: Benchmarking Their Ability, Divergence, and Prompt Injection Resistance as Paper Reviewers
- 作者:
- Lingyao Li, Junjie Xiong, Changjia Zhu, Runlong Yu, Chen Chen, Junyu Wang, Renkai Ma, Zhicong Lu
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- /models/gemma-4-26B-A4B-it
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。