ai assessment knowledge building social reasoning edtech

OmniToM：透過顯式信念建模評估大型語言模型的心理理論能力

arXiv - Artificial IntelligenceAdam Bawatneh, Sagar Sapkota, Amrit Singh Bedi, Santu Karmaker, Mubarak Shah2026年5月27日

提出 OmniToM 基準測試，透過顯式建模角色信念結構，揭示現有 LLM 在處理複雜社會推理時的認知瓶頸。

AI 幫你先抓重點

AI 重點 1

從「結果導向」評估轉向「過程導向」的認知評估。

滑鼠懸停看 AI 判斷理由

過去僅看模型是否答對社會推理問題，但 OmniToM 強調必須檢查模型內部的「心理表徵」是否正確，這對於開發具備真正理解能力的 AI 至關重要。

AI 重點 2

識別出 LLM 在知識獲取與表徵決策上的結構性缺陷。

滑鼠懸停看 AI 判斷理由

這說明目前的 AI 並非只是在做模式匹配，而是在處理「誰知道什麼」這種遞迴邏輯時會出現斷層，這為未來提升 AI 社會智能提供了明確的改進方向。

核心研究發現

1
現有的心理理論（ToM）評估多依賴最終答案，這會掩蓋模型是否真正建構出底層心理狀態表示的問題。
2
OmniToM 透過「信念提取」與「信念標籤」兩階段評估，將信念拆解為包含七維維度的最小命題結構。
3
研究發現 LLM 在追蹤特定角色信念時存在瓶頸，特別是在將敘事事實轉化為角色知識與共享心理狀態時表現不佳。

對教育工作者的啟發

對於開發教育 AI 助教或社交模擬系統的設計者而言，此研究提醒我們不能僅依賴模型給出的最終答案來判斷其是否「理解」學生的心理狀態。在設計 AI 輔助學習系統時，應建立更精細的評估機制，檢查 AI 是否能準確捕捉學生的錯誤信念（False Beliefs）或知識盲點，而非僅僅是給出正確的教學回饋。這對於開發能進行高階社會情感學習（SEL）支持的 AI 工具具有重要的架構指導意義。

原始文獻資訊

英文標題：: OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling
作者：: Adam Bawatneh, Sagar Sapkota, Amrit Singh Bedi, Santu Karmaker, Mubarak Shah
來源：: arXiv - Artificial Intelligence
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。