OmniToM:透過顯式信念建模評估大型語言模型的心理理論能力

arXiv - Artificial IntelligenceAdam Bawatneh, Sagar Sapkota, Amrit Singh Bedi, Santu Karmaker, Mubarak Shah

提出 OmniToM 基準測試,透過顯式建模角色信念結構,揭示現有 LLM 在處理複雜社會推理時的認知瓶頸。

AI 幫你先抓重點

AI 重點 1

從「結果導向」評估轉向「過程導向」的認知評估。

滑鼠懸停看 AI 判斷理由
過去僅看模型是否答對社會推理問題,但 OmniToM 強調必須檢查模型內部的「心理表徵」是否正確,這對於開發具備真正理解能力的 AI 至關重要。
AI 重點 2

識別出 LLM 在知識獲取與表徵決策上的結構性缺陷。

滑鼠懸停看 AI 判斷理由
這說明目前的 AI 並非只是在做模式匹配,而是在處理「誰知道什麼」這種遞迴邏輯時會出現斷層,這為未來提升 AI 社會智能提供了明確的改進方向。

核心研究發現

  1. 1

    現有的心理理論(ToM)評估多依賴最終答案,這會掩蓋模型是否真正建構出底層心理狀態表示的問題。

  2. 2

    OmniToM 透過「信念提取」與「信念標籤」兩階段評估,將信念拆解為包含七維維度的最小命題結構。

  3. 3

    研究發現 LLM 在追蹤特定角色信念時存在瓶頸,特別是在將敘事事實轉化為角色知識與共享心理狀態時表現不佳。

對教育工作者的啟發

對於開發教育 AI 助教或社交模擬系統的設計者而言,此研究提醒我們不能僅依賴模型給出的最終答案來判斷其是否「理解」學生的心理狀態。在設計 AI 輔助學習系統時,應建立更精細的評估機制,檢查 AI 是否能準確捕捉學生的錯誤信念(False Beliefs)或知識盲點,而非僅僅是給出正確的教學回饋。這對於開發能進行高階社會情感學習(SEL)支持的 AI 工具具有重要的架構指導意義。

原始文獻資訊

英文標題:
OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling
作者:
Adam Bawatneh, Sagar Sapkota, Amrit Singh Bedi, Santu Karmaker, Mubarak Shah
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。