ai edtech higher education assessment learning design

社會人機擬態對話資料集（SHREC）：基礎模型社會推理基準測試

arXiv - Human-Computer InteractionDong Won Lee, Yubin Kim, Denison Guvenoz, Sooyeon Jeong, Parker Malachowsky, Louis-Philippe Morency, Cynthia Breazeal, Hae Won Park2026年5月13日

提出400段真實人機互動影片與10K標註的SHREC資料集，並設計八項社會推理基準，證實現有基礎模型在情緒理解、意圖追蹤等社會挑戰上表現不足。

AI 幫你先抓重點

AI 重點 1

基礎模型在社會推理任務上表現低於人類，顯示其對情緒與意圖的理解仍有限。

滑鼠懸停看 AI 判斷理由

這一發現凸顯了即使是最先進的AI，也難以把握人機互動中的微妙社會線索，提醒研究者在設計社會機器人時必須加入更細緻的情緒與意圖模型，否則機器人可能產生誤解或不適當回應。

AI 重點 2

SHREC資料集提供了完整的社會推理基準，可用於評估與改進機器人社會行為。

滑鼠懸停看 AI 判斷理由

擁有此資料集後，開發者能在真實情境下測試機器人對情緒、意圖及對話機制的處理能力，並透過八項任務快速定位弱點，進而針對性優化演算法，提升機器人社會智能。

核心研究發現

1
SHREC資料集包含約400段真實人機互動影片，配合超過10,000筆標註，涵蓋機器人社會錯誤、能力、推理與修正。
2
作者定義八項基準任務，涵蓋社會錯誤檢測、社會屬性識別、互動流程理解及提供合理化與替代正確行動。
3
實驗顯示最先進的基礎模型在所有任務上均低於人類評估者，表明其在情緒理解與意圖追蹤等社會推理方面存在顯著缺口。

對教育工作者的啟發

對於教育工作者與課程設計者而言，SHREC資料集提供了一套可直接應用於實體或虛擬機器人教學的評估工具。透過八項基準任務，教師可檢視機器人在情緒辨識、意圖追蹤與對話流暢度上的表現，並根據評估結果調整教學情境或機器人行為規則。此方法不僅能提升學生對社會互動的理解，也能促進機器人作為協同學習伙伴的可信度與有效性。

原始文獻資訊

英文標題：: Social Human Robot Embodied Conversation (SHREC) Dataset: Benchmarking Foundational Models' Social Reasoning
作者：: Dong Won Lee, Yubin Kim, Denison Guvenoz, Sooyeon Jeong, Parker Malachowsky, Louis-Philippe Morency, Cynthia Breazeal, Hae Won Park
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。