NARRA-Gym:互動敘事代理評估平台

arXiv - Computers and SocietyYue Huang, Yuchen Ma, Jiayi Ye, Wenjie Wang, Zipeng Ling, Xingjian Hu, Yuexing Hao, Zichen Chen, Zhangchen Xu, Yunhong He, Zhengqing Yuan, Yujun Zhou, Kehan Guo, Chaoran Chen, Toby Jia-Jun Li, Stefan Feuerriegel, Xiangliang Zhang

NARRA-Gym提供完整多輪互動敘事評估流程,測試LLM在故事生成、記憶、節奏與個人化表現,揭示模型差異與局限。

AI 幫你先抓重點

AI 重點 1

NARRA-Gym提供完整的多輪互動敘事評估流程,能捕捉模型在記憶、節奏與個人化等多維度的表現。

滑鼠懸停看 AI 判斷理由
此洞察強調評估不僅關注故事流暢度,還需考量長期互動中的記憶維護與情境適應,對設計自適應學習系統具有指導意義。
AI 重點 2

即使模型能產生流暢故事,仍可能在用戶體驗與抗拒度個人化方面表現欠佳,提示開發者需重視情境適應與用戶情感回饋。

滑鼠懸停看 AI 判斷理由
此點提醒研究者與實務者,單純追求語言流暢度不足以保證教育AI的有效性,必須納入用戶情感與互動韌性等指標。

核心研究發現

  1. 1

    NARRA-Gym能將稀疏情緒種子轉化為完整互動故事,並記錄故事構建、記憶更新、規劃、節奏調整與可選的實體化產出。

  2. 2

    對九款前沿LLM在八個benchmark人物角色下的LLM-as-judge評估顯示,雖能產生流暢故事,但在魯棒性、用戶體驗與抗拒度個人化方面仍有顯著差異。

  3. 3

    人類評估證實參與者對模型輸出的評價因人物角色與個人化設定而異,說明互動敘事評估能捕捉單一故事品質之外的多維度表現。

對教育工作者的啟發

教育工作者與課程設計者可利用 NARRA-Gym 先行測試學習平台中的互動敘事功能,特別關注記憶管理與節奏調整,以確保故事能隨學習者情緒與需求演進。建議在開發初期加入多角色人物模型,並透過人類評估收集實際使用者對故事流暢度、情感共鳴與個人化適應度的回饋,進而調整模型參數或增設情境提示。此流程可提升學習體驗的沉浸感與持續參與度,並降低因模型魯棒性不足造成的學習中斷。

原始文獻資訊

英文標題:
NARRA-Gym for Evaluating Interactive Narrative Agents
作者:
Yue Huang, Yuchen Ma, Jiayi Ye, Wenjie Wang, Zipeng Ling, Xingjian Hu, Yuexing Hao, Zichen Chen, Zhangchen Xu, Yunhong He, Zhengqing Yuan, Yujun Zhou, Kehan Guo, Chaoran Chen, Toby Jia-Jun Li, Stefan Feuerriegel, Xiangliang Zhang
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。