從開源語言模型中提取已記憶的版權書籍片段
arXiv - Computers and SocietyA. Feder Cooper, Mark A. Lemley, Allison Casasola, Ahmed Ahmed, Aaron Gokaslan, Amy B. Cyphert, Christopher De Sa, Daniel E. Ho, Percy Liang
研究開發測量方法,證實大型語言模型在記憶書籍內容上差異顯著,部分模型可完整提取版權文本。
AI 幫你先抓重點
AI 重點 1
記憶差異化揭示了版權訴訟中普遍存在的誇大主張不成立。
滑鼠懸停看 AI 判斷理由
若所有模型都大量記憶版權文本,訴訟將更易判定侵權;但研究顯示多數模型不具此特性,說明需以實證為基礎審查。
AI 重點 2
某些高容量模型能完整提取版權書籍,提示內容創作者與政策制定者須審慎規範LLM使用。
滑鼠懸停看 AI 判斷理由
此現象表明即使模型未被訓練直接存取文本,也可能在生成階段重現完整版權內容,對版權保護與教育實務構成挑戰。
核心研究發現
- 1
開發了一種可量化書籍記憶程度的測試方法,並在200本書與14款開源LLM上進行了超過3000次實驗。
- 2
實驗結果顯示,記憶程度高度依賴於模型與書籍本身,並非所有模型都會完整或部分記憶書籍。
- 3
Llama 3.1 70B模型能完整記憶並幾乎逐字提取《哈利波特與魔法石》,僅需以書首幾字作為提示即可。
對教育工作者的啟發
教育工作者在使用大型語言模型輔助教學時,必須先評估模型對特定教材的記憶程度,避免無意中重現版權文本。建議採用已驗證不記憶關鍵段落的模型,或在輸入提示時加入版權聲明與引用。對於需要引用長篇文本的課程,可先將原文轉為摘要或改寫,並在使用前確認模型不會直接回覆原文。此舉不僅符合法律規範,也促進學生的自主學習與批判性閱讀,避免過度依賴機器生成的內容。
原始文獻資訊
- 英文標題:
- Extracting memorized pieces of (copyrighted) books from open-weight language models
- 作者:
- A. Feder Cooper, Mark A. Lemley, Allison Casasola, Ahmed Ahmed, Aaron Gokaslan, Amy B. Cyphert, Christopher De Sa, Daniel E. Ho, Percy Liang
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。