ai higher education learning design knowledge building assessment

遺忘幻覺：通過初始潛變量優化攻擊未學習擴散模型

arXiv - Computers and SocietyManyi Li, Yufan Liu, Lai Jiang, Bing Li, Yuming Li, Weiming Hu2026年5月8日

提出 IVO 攻擊框架揭示概念消除方法的遺忘幻覺，證明未學習模型仍保留潛在知識，可被重新激活。

AI 幫你先抓重點

AI 重點 1

遺忘幻覺揭示概念消除並非真正刪除知識，而是暫時遮蔽。

滑鼠懸停看 AI 判斷理由

這一發現提醒研究者與實務者在設計去除有害內容時，需考慮知識的可恢復性，避免僅靠表面消除而忽視深層記憶，影響模型安全與倫理評估。

AI 重點 2

IVO 的初始潛變量優化提供了一種可測試未學習方法有效性的評估工具。

滑鼠懸停看 AI 判斷理由

該工具能快速檢測不同消除策略的脆弱性，為開發更堅固的概念消除機制提供實驗基礎，促進安全 AI 的落地。

核心研究發現

1
實驗顯示，概念消除後的模型仍保留語言符號與內部知識的映射，僅被暫時中斷，形成遺忘幻覺。
2
在去噪過程中，分佈差異可量化映射保留程度，成為衡量未學習強度的指標。
3
IVO 通過優化初始潛變量，使未學習模型的噪聲分佈與原始模型對齊，成功恢復被破碎的映射，並在 11 種未學習技術與 3 個概念場景中擊敗現有基線。

對教育工作者的啟發

對於 AI 系統開發者而言，本文提示在實施概念消除時，應加入對映射完整性的檢測，避免遺忘幻覺帶來的安全風險。具體做法包括：1) 在消除後使用分佈差異指標評估映射保留程度；2) 引入 IVO 或類似的潛變量優化測試，以驗證模型是否仍能重現被消除概念；3) 若發現恢復潛能，需重新設計消除策略或加強正則化；4) 在部署前進行多輪攻擊測試，確保模型對有害輸入的抵抗力。

原始文獻資訊

英文標題：: The Illusion of Forgetting: Attack Unlearned Diffusion via Initial Latent Variable Optimization
作者：: Manyi Li, Yufan Liu, Lai Jiang, Bing Li, Yuming Li, Weiming Hu
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。