理論心智提升是否真正有利於人機互動?實證研究

arXiv - Artificial IntelligenceNanxu Gong, Zixin Chen, Haotian Li, Zishu Zhao, Jianxun Lian, Huamin Qu, Yanjie Fu, Xing Xie

提出互動式心智評估,發現靜態基準提升不一定改善人機互動效果。

AI 幫你先抓重點

AI 重點 1

互動式評估揭示靜態基準與實際互動效能不匹配,提醒研究者重視動態測試。

滑鼠懸停看 AI 判斷理由
此洞察顯示傳統靜態測試可能誤導 LLM 社會能力評估,改變研究者對評估設計的重視,促使更真實的互動測試。
AI 重點 2

不同任務類型對 ToM 改進的敏感度不同,目標導向任務提升有限,體驗導向任務更受益。

滑鼠懸停看 AI 判斷理由
此發現說明 ToM 改進需針對任務特性設計,否則投入成本可能低效,對實務應用與模型開發具有指導意義。

核心研究發現

  1. 1

    靜態基準提升不一定帶來動態人機互動效能提升。

  2. 2

    四種 ToM 增強技術在目標導向任務(編碼、數學)上提升有限,而在體驗導向任務(諮詢)上提升較為明顯。

  3. 3

    互動式評估顯示,ToM 改進的效益高度依賴任務性質與互動動態,強調需以互動為基礎的評估方法。

對教育工作者的啟發

教育工作者與課程設計者在採用 LLM 互動式教學前,先進行互動式 ToM 評估,確保模型理解學生情緒與需求;針對諮詢、輔導等體驗導向任務,優先選用已證實提升 ToM 的技術;設計評量時加入動態、第一人稱情境,避免僅依靜態測試;持續收集回饋調整模型行為,促進人機共生。

原始文獻資訊

英文標題:
Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations
作者:
Nanxu Gong, Zixin Chen, Haotian Li, Zishu Zhao, Jianxun Lian, Huamin Qu, Yanjie Fu, Xing Xie
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。