允許 LLM 潤飾的同儕審查政策難以執行

arXiv - Computers and SocietyRounak Saha, Gurusha Juneja, Dayita Chaudhuri, Naveeja Sajeevan, Nihar B Shah, Danish Pruthi

本研究發現現行允許 LLM 輔助潤飾同儕審查稿件的政策,因 AI 偵測工具的準確性不足,難以有效執行,並可能導致錯誤指控。

AI 幫你先抓重點

AI 重點 1

AI 偵測工具的準確性不足。

滑鼠懸停看 AI 判斷理由
這點至關重要,因為現行政策依賴 AI 偵測工具來執行,而偵測錯誤可能導致對學術人員的不公平指控,影響其職業生涯。研究揭示了現有工具的局限性,提醒使用者謹慎解讀偵測結果。
AI 重點 2

混合型審查稿件的誤判問題。

滑鼠懸停看 AI 判斷理由
這點突顯了 AI 在學術寫作中的角色日益複雜。AI 輔助工具的普及意味著更多稿件將是人機協作的成果,而現有偵測工具無法準確辨識,可能導致對合法使用 AI 的行為進行懲罰。

核心研究發現

  1. 1

    目前 AI 偵測工具無法準確區分由 LLM 潤飾的人工撰寫的同儕審查稿件與完全由 AI 生成的稿件,存在較高的誤判率。

  2. 2

    即使利用同儕審查的特定資訊,如論文手稿存取權和科學寫作領域的限制,也無法大幅提升 AI 偵測的準確性。

  3. 3

    現有的 AI 偵測工具容易將混合型審查稿件(人工與 AI 協作產出)誤判為完全由 AI 生成,可能高估政策違規的程度。

  4. 4

    先前針對 AI 在同儕審查中使用的估計值,應謹慎解讀,因為這些估計值基於準確性不足的 AI 偵測工具。

  5. 5

    研究結果暗示,現行政策在保障學術誠信方面存在漏洞,需要更可靠的 AI 偵測方法或更明確的政策規範。

對教育工作者的啟發

本研究提醒學術期刊和會議組織者,在制定和執行允許 LLM 輔助同儕審查的政策時,應謹慎評估 AI 偵測工具的準確性。目前,過度依賴 AI 偵測工具可能導致不公平的指控和誤判。建議在政策制定上,應考慮更全面的方法,例如強調審查的透明度,並鼓勵審查者公開說明其使用 AI 工具的情況。此外,也應加強對學術人員的教育,使其了解 AI 工具的潛在風險和益處,並鼓勵負責任地使用 AI 技術。

原始文獻資訊

英文標題:
Policies Permitting LLM Use for Polishing Peer Reviews Are Currently Not Enforceable
作者:
Rounak Saha, Gurusha Juneja, Dayita Chaudhuri, Naveeja Sajeevan, Nihar B Shah, Danish Pruthi
來源:
arXiv - Computers and Society
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。