ai edtech higher education knowledge building assessment

從開源語言模型中提取已記憶的版權書籍片段

arXiv - Computers and SocietyA. Feder Cooper, Mark A. Lemley, Allison Casasola, Ahmed Ahmed, Aaron Gokaslan, Amy B. Cyphert, Christopher De Sa, Daniel E. Ho, Percy Liang2026年5月5日

研究開發測量方法，證實大型語言模型在記憶書籍內容上差異顯著，部分模型可完整提取版權文本。

AI 幫你先抓重點

AI 重點 1

記憶差異化揭示了版權訴訟中普遍存在的誇大主張不成立。

滑鼠懸停看 AI 判斷理由

若所有模型都大量記憶版權文本，訴訟將更易判定侵權；但研究顯示多數模型不具此特性，說明需以實證為基礎審查。

AI 重點 2

某些高容量模型能完整提取版權書籍，提示內容創作者與政策制定者須審慎規範LLM使用。

滑鼠懸停看 AI 判斷理由

此現象表明即使模型未被訓練直接存取文本，也可能在生成階段重現完整版權內容，對版權保護與教育實務構成挑戰。

核心研究發現

1
開發了一種可量化書籍記憶程度的測試方法，並在200本書與14款開源LLM上進行了超過3000次實驗。
2
實驗結果顯示，記憶程度高度依賴於模型與書籍本身，並非所有模型都會完整或部分記憶書籍。
3
Llama 3.1 70B模型能完整記憶並幾乎逐字提取《哈利波特與魔法石》，僅需以書首幾字作為提示即可。

對教育工作者的啟發

原始文獻資訊

英文標題：: Extracting memorized pieces of (copyrighted) books from open-weight language models
作者：: A. Feder Cooper, Mark A. Lemley, Allison Casasola, Ahmed Ahmed, Aaron Gokaslan, Amy B. Cyphert, Christopher De Sa, Daniel E. Ho, Percy Liang
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。