語言模型知識與表現落差:可解釋性無法修正錯誤

arXiv - Artificial IntelligenceSanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, John Morgan, Rajaie Batniji

儘管語言模型內部表現卓越,但現有機制可解釋性方法無法有效修正其輸出錯誤,揭示知識與行動之間存在巨大落差。

AI 幫你先抓重點

AI 重點 1

知識表徵與輸出表現的巨大落差

滑鼠懸停看 AI 判斷理由
此研究揭示了即使模型內部擁有正確的知識,也無法保證其輸出結果的準確性,這對於理解大型語言模型的局限性至關重要,並提醒我們在AI安全框架中不可過度依賴可解釋性。
AI 重點 2

現有可解釋性方法修正錯誤的局限性

滑鼠懸停看 AI 判斷理由
研究結果表明,目前流行的可解釋性方法在實際應用中,例如臨床決策支持系統中,並不可靠地修正模型錯誤,這對於開發更安全、更可靠的AI系統具有重要意義。

核心研究發現

  1. 1

    語言模型在內部表徵中編碼了高水平的任務相關知識,遠超其輸出表現。

  2. 2

    線性探測法能以98.2%的AUROC準確區分危險與無害案例,但模型輸出敏感度僅為45.1%,存在53個百分點的知識-行動差距。

  3. 3

    概念瓶頸引導僅修正了20%的遺漏危險,同時干擾了53%的正確檢測,結果與隨機擾動無異。

  4. 4

    稀疏自動編碼器特徵引導未能產生任何效果,儘管有3,695個顯著特徵。

  5. 5

    TSV引導在較強強度下修正了24%的遺漏危險,但仍有76%的錯誤未被修正,且干擾了6%的正確檢測。

對教育工作者的啟發

此研究警示我們,僅僅理解語言模型內部的工作原理並不能保證其輸出結果的可靠性。在將語言模型應用於高風險領域(如醫療保健)時,必須謹慎評估其潛在風險,並建立完善的錯誤檢測和修正機制。此外,研究也呼籲開發更有效的可解釋性方法,以彌合知識與行動之間的差距,提升AI系統的安全性與可靠性。

原始文獻資訊

英文標題:
Interpretability without actionability: mechanistic methods cannot correct language model errors despite near-perfect internal representations
作者:
Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, John Morgan, Rajaie Batniji
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。