從開源語言模型中提取已記憶的版權書籍片段

arXiv - Computers and SocietyA. Feder Cooper, Mark A. Lemley, Allison Casasola, Ahmed Ahmed, Aaron Gokaslan, Amy B. Cyphert, Christopher De Sa, Daniel E. Ho, Percy Liang

研究開發測量方法,證實大型語言模型在記憶書籍內容上差異顯著,部分模型可完整提取版權文本。

AI 幫你先抓重點

AI 重點 1

記憶差異化揭示了版權訴訟中普遍存在的誇大主張不成立。

滑鼠懸停看 AI 判斷理由
若所有模型都大量記憶版權文本,訴訟將更易判定侵權;但研究顯示多數模型不具此特性,說明需以實證為基礎審查。
AI 重點 2

某些高容量模型能完整提取版權書籍,提示內容創作者與政策制定者須審慎規範LLM使用。

滑鼠懸停看 AI 判斷理由
此現象表明即使模型未被訓練直接存取文本,也可能在生成階段重現完整版權內容,對版權保護與教育實務構成挑戰。

核心研究發現

  1. 1

    開發了一種可量化書籍記憶程度的測試方法,並在200本書與14款開源LLM上進行了超過3000次實驗。

  2. 2

    實驗結果顯示,記憶程度高度依賴於模型與書籍本身,並非所有模型都會完整或部分記憶書籍。

  3. 3

    Llama 3.1 70B模型能完整記憶並幾乎逐字提取《哈利波特與魔法石》,僅需以書首幾字作為提示即可。

對教育工作者的啟發

教育工作者在使用大型語言模型輔助教學時,必須先評估模型對特定教材的記憶程度,避免無意中重現版權文本。建議採用已驗證不記憶關鍵段落的模型,或在輸入提示時加入版權聲明與引用。對於需要引用長篇文本的課程,可先將原文轉為摘要或改寫,並在使用前確認模型不會直接回覆原文。此舉不僅符合法律規範,也促進學生的自主學習與批判性閱讀,避免過度依賴機器生成的內容。

原始文獻資訊

英文標題:
Extracting memorized pieces of (copyrighted) books from open-weight language models
作者:
A. Feder Cooper, Mark A. Lemley, Allison Casasola, Ahmed Ahmed, Aaron Gokaslan, Amy B. Cyphert, Christopher De Sa, Daniel E. Ho, Percy Liang
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。