OmniToM:透過顯式信念建模評估大型語言模型的心理理論能力
arXiv - Artificial IntelligenceAdam Bawatneh, Sagar Sapkota, Amrit Singh Bedi, Santu Karmaker, Mubarak Shah
提出 OmniToM 基準測試,透過顯式建模角色信念結構,揭示現有 LLM 在處理複雜社會推理時的認知瓶頸。
AI 幫你先抓重點
AI 重點 1
從「結果導向」評估轉向「過程導向」的認知評估。
滑鼠懸停看 AI 判斷理由
過去僅看模型是否答對社會推理問題,但 OmniToM 強調必須檢查模型內部的「心理表徵」是否正確,這對於開發具備真正理解能力的 AI 至關重要。
AI 重點 2
識別出 LLM 在知識獲取與表徵決策上的結構性缺陷。
滑鼠懸停看 AI 判斷理由
這說明目前的 AI 並非只是在做模式匹配,而是在處理「誰知道什麼」這種遞迴邏輯時會出現斷層,這為未來提升 AI 社會智能提供了明確的改進方向。
核心研究發現
- 1
現有的心理理論(ToM)評估多依賴最終答案,這會掩蓋模型是否真正建構出底層心理狀態表示的問題。
- 2
OmniToM 透過「信念提取」與「信念標籤」兩階段評估,將信念拆解為包含七維維度的最小命題結構。
- 3
研究發現 LLM 在追蹤特定角色信念時存在瓶頸,特別是在將敘事事實轉化為角色知識與共享心理狀態時表現不佳。
對教育工作者的啟發
對於開發教育 AI 助教或社交模擬系統的設計者而言,此研究提醒我們不能僅依賴模型給出的最終答案來判斷其是否「理解」學生的心理狀態。在設計 AI 輔助學習系統時,應建立更精細的評估機制,檢查 AI 是否能準確捕捉學生的錯誤信念(False Beliefs)或知識盲點,而非僅僅是給出正確的教學回饋。這對於開發能進行高階社會情感學習(SEL)支持的 AI 工具具有重要的架構指導意義。
原始文獻資訊
- 英文標題:
- OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling
- 作者:
- Adam Bawatneh, Sagar Sapkota, Amrit Singh Bedi, Santu Karmaker, Mubarak Shah
- 來源:
- arXiv - Artificial Intelligence
- AI 摘要模型:
- /models/gemma-4-26B-A4B-it
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。