問卷調查無法捕捉 AI 系統的安全性能

arXiv - Computers and SocietyMax Hellrigel-Holderbaum, Edward James Young2026年3月17日

這篇文章指出，目前評估 AI 安全性的方法，如問卷調查，無法準確反映基於大型語言模型（LLM）的 AI 代理在實際部署中的行為風險。

AI 幫你先抓重點

AI 重點 1

問卷調查無法反映 AI 代理的真實行為。

滑鼠懸停看 AI 判斷理由

AI 認為這是首要重點，因為目前許多 AI 安全性評估依賴於 LLM 的自我報告，而這並不能代表 AI 代理在實際應用中可能產生的風險。理解這種差異對於開發更可靠的評估方法至關重要。

AI 重點 2

AI 對齊方法也面臨類似的建構效度問題。

滑鼠懸停看 AI 判斷理由

AI 認為這點值得注意，因為它表明現有的 AI 對齊策略可能存在根本性的缺陷。如果對齊方法依賴於 LLM 的自我報告，那麼它們可能無法有效地防止 AI 系統在真實世界中出現意外或有害行為。

教育科技開發者在導入基於 LLM 的 AI 代理時，不應僅依賴問卷調查等方法來評估其安全性。應設計更全面的評估方案，包含真實環境中的測試和監控，以確保 AI 系統符合道德和安全標準。此外，在 AI 對齊訓練中，應考慮 AI 代理的行為模式，而非僅僅依賴 LLM 的自我報告。

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。