ItinBench:多認知維度下的大型語言模型規劃基準測試

arXiv - Artificial IntelligenceTianlong Wang, Pinqiao Wang, Weili Shi, Sheng li

提出 ItinBench 基準,將路徑優化與語言推理結合,評估 LLM 在多認知維度下的表現,發現其難以同時處理多任務。

AI 幫你先抓重點

AI 重點 1

ItinBench 將空間推理納入旅行規劃,創造多認知維度測試

滑鼠懸停看 AI 判斷理由
此設計填補了傳統單一推理任務的空白,提供更貼近實際場景的評估框架,能更全面測試 LLM 的跨領域推理能力。
AI 重點 2

LLM 在多任務下表現不穩定,顯示其推理能力仍有限

滑鼠懸停看 AI 判斷理由
此發現提醒研究者與實務工作者,現有模型在同時處理多種認知任務時仍存在顯著挑戰,需針對性改進訓練與調整策略。
AI 重點 3

提供可重複使用的資料集與程式碼,促進研究社群合作

滑鼠懸停看 AI 判斷理由
開源資源降低重複實驗成本,鼓勵學術界與產業界共同擴充測試維度,推動多認知評估領域的快速發展。

核心研究發現

  1. 1

    ItinBench 將空間推理(路徑優化)納入旅行行程規劃,形成多認知維度測試環境。

  2. 2

    在同時評估 Llama 3.1 8B、Mistral Large、Gemini 1.5 Pro、GPT 系列等 LLM 時,發現其在多任務下表現不穩定。

  3. 3

    LLM 在單一語言推理任務表現優秀,但加入空間推理後,整體準確率顯著下降。

  4. 4

    ItinBench 的設計揭示 LLM 在實際場景中需要更全面的訓練與調整,以提升跨領域推理能力。

  5. 5

    該基準提供了可重複使用的資料集與程式碼,方便後續研究者擴充或改進多維度推理測試。

對教育工作者的啟發

對於教育科技與課程設計者而言,ItinBench 示範了將空間推理與語言推理結合的評估框架,可用於設計跨領域學習任務。實務上,教師可利用此基準檢驗學生在旅行規劃、路徑優化等實務情境中的推理與協作能力,並根據模型表現調整教學策略。研究者亦可借助公開資料與程式碼,擴充更多認知維度,進一步驗證模型在真實世界場景中的適用性與可擴展性。

原始文獻資訊

英文標題:
ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models
作者:
Tianlong Wang, Pinqiao Wang, Weili Shi, Sheng li
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。