大型語言模型記憶洩漏:微調重現版權書籍

arXiv - Computers and SocietyXinyue Liu, Niloofar Mireshghallah, Jane C. Ginsburg, Tuhin Chakrabarty

本研究揭示,透過微調大型語言模型以擴展情節摘要,竟能使其重現高比例的受版權保護書籍內容,繞過現有的安全防護機制。

AI 幫你先抓重點

AI 重點 1

微調會意外激活模型對版權內容的記憶。

滑鼠懸停看 AI 判斷理由
這對於教育科技的應用至關重要,因為它揭示了即使經過安全對齊,模型仍可能在生成內容時洩露受保護的資料,影響內容的合法性和可靠性,需要更謹慎的設計和監控。
AI 重點 2

不同模型在記憶版權內容方面存在驚人的相似性。

滑鼠懸停看 AI 判斷理由
這表明大型語言模型的預訓練資料集中可能存在共同的記憶來源,並暗示業界普遍存在潛在的版權風險,需要更深入的研究和協同合作來解決。

核心研究發現

  1. 1

    微調大型語言模型能有效繞過其內建的安全機制,導致其重現受版權保護書籍的內容。

  2. 2

    僅透過使用语义描述作為提示,模型便能重現高達 85-90% 的受版權保護書籍,且單一連續重現段落超過 460 字。

  3. 3

    專注於特定作者的作品進行微調,能解鎖模型對其他無關作者的受版權保護書籍的記憶。

  4. 4

    即使使用隨機作者組合或公共領域資料進行微調,也能產生相似的內容提取效果,暗示記憶能力源於預訓練階段。

  5. 5

    不同供應商的模型在記憶特定書籍和區域方面表現出高度一致性,表明這是一個業界普遍存在的漏洞。

對教育工作者的啟發

教育工作者在使用大型語言模型於教學時,應意識到模型可能無意中重現受版權保護的內容。在設計基於 LLM 的學習活動時,應加強對模型輸出內容的審查,避免侵犯版權。此外,開發者應積極探索更有效的安全對齊策略,以防止模型記憶和重現未經授權的資料。這也提醒我們,在教育科技的應用中,必須兼顧創新與法律合規。

原始文獻資訊

英文標題:
Alignment Whack-a-Mole : Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models
作者:
Xinyue Liu, Niloofar Mireshghallah, Jane C. Ginsburg, Tuhin Chakrabarty
來源:
arXiv - Computers and Society
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。