顯示而非告訴:可解釋的 AI 生成文本偵測

arXiv - Computers and SocietyAldan Creo, Suraj Ranganath

提出 TELL 架構,將可解釋性嵌入 AI 文本偵測,達到 AUROC 0.927 並提供高質量說明,提升教師對 AI 生成文本的判斷力。

AI 幫你先抓重點

AI 重點 1

將可解釋性從設計階段嵌入模型,讓使用者能自行判斷文本來源。

滑鼠懸停看 AI 判斷理由
傳統偵測器僅提供數值分數,缺乏判斷依據;TELL 的說明能讓教師根據上下文與作者背景做出更精準的決策,提升學術誠信審查的透明度。
AI 重點 2

利用領域特定的 SFT 數據與 GRPO 課程式學習,顯著提升偵測準確度。

滑鼠懸停看 AI 判斷理由
針對特定學術領域的寫作風格進行微調,結合增強學習與漸進式任務設計,能更好捕捉 AI 生成文本的細微差異,降低誤判率。

核心研究發現

  1. 1

    TELL 在測試集上達到 AUROC 0.927,與現有最先進偵測器相當。

  2. 2

    系統自帶可視化說明,展示模型判斷文本為 AI 或人類寫作的關鍵特徵。

  3. 3

    在 72.3% 的人類評估中,說明在具體性、可證偽性、連貫性、可信度與基礎性方面獲得勝率。

對教育工作者的啟發

教師可將 TELL 整合至課堂評分或作業檢查流程,透過模型提供的關鍵特徵說明,快速辨識 AI 生成內容,並以此作為討論教材的切入點,提升學生的自我監控與批判性思維。教育科技開發者則可參考 TELL 的可解釋性設計,將說明機制嵌入學術誠信工具,並利用領域特定數據與課程式學習優化模型,確保在不同學科背景下的適用性與準確度。

原始文獻資訊

英文標題:
Show, Don't TELL: Explainable AI-Generated Text Detection
作者:
Aldan Creo, Suraj Ranganath
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。