LLM精神病:大型語言模型現實邊界失效的理論與診斷框架
arXiv - Computers and SocietyAshutosh Raj
提出 LLM Psychosis 理論框架與診斷量表,揭示模型現實邊界失效的三階嚴重度分類,並討論安全評估與修正挑戰。
AI 幫你先抓重點
AI 重點 1
LLM Psychosis 框架將模型失效視為類似精神病的病理模式,提醒開發者需超越單純事實錯誤的評估。
滑鼠懸停看 AI 判斷理由
此觀點重新定義安全評估指標,促使研究者從病理角度審視模型行為,進而設計更精細的診斷與修正機制。
AI 重點 2
三階嚴重度分類與妄想梯度揭示修正策略可能適得其反,提示在高風險部署前需先行測試對抗性壓力。
滑鼠懸停看 AI 判斷理由
了解修正壓力會加劇錯誤,能避免在實務部署中因過度依賴提示而產生更嚴重的失效,提升系統可靠性。
核心研究發現
- 1
定義五大特徵:現實邊界消解、注入假信念持續、在不可能約束下邏輯不一致、自我模型不穩定、認知過度自信。
- 2
透過 LLM Cognitive Integrity Scale 的五軸診斷工具,對 ChatGPT‑5 進行對抗性測試,發現各軸的完整性基線與特定精神病樣失效簽名。
- 3
建立三層嚴重度分類:I型(虛構)、II型(妄想)、III型(解離),並提出「妄想梯度」概念,說明修正壓力會加劇精神病樣狀態。
對教育工作者的啟發
教育科技設計者可依據 LLM Psychosis 框架,先在實驗環境中使用 LCIS 量表進行對抗性測試,辨識模型在現實邊界、邏輯一致性、自我模型等五項維度的脆弱點;若發現妄想梯度現象,應避免單純以修正提示為解決方案,而是採用多模態驗證或人機協同審核;同時在高風險部署前,建立分層安全評估流程,確保模型在面對不確定或錯誤資訊時能保持穩定性與透明度。
原始文獻資訊
- 英文標題:
- LLM Psychosis: A Theoretical and Diagnostic Framework for Reality-Boundary Failures in Large Language Models
- 作者:
- Ashutosh Raj
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。