ai human-computer interaction decision-making cognitive science llm

比較大型語言模型與人類的探索與利用策略：多臂老虎機實驗之啟示

arXiv - Human-Computer InteractionZiyuan Zhang, Darcy Wang, Ningyuan Chen, Rodrigo Mansur, Vahid Sarhangian2026年5月4日

研究發現透過「思考軌跡」能使 LLM 的決策行為更接近人類，但在複雜動態環境下的適應力仍不及人類。

AI 幫你先抓重點

AI 重點 1

「思考過程」是縮小 AI 與人類決策差距的關鍵橋樑。

滑鼠懸停看 AI 判斷理由

這項發現證明了透過引導 AI 進行顯性推理（Thinking traces），可以改變其底層的決策邏輯，使其從單純的機率預測轉向更具策略性的行為，這對於開發模擬人類行為的 AI 代理人至關重要。

AI 重點 2

LLM 在處理動態環境時的適應力仍存在侷限性。

滑鼠懸停看 AI 判斷理由

理解 LLM 在非靜態環境中的弱點，有助於研究者在設計自動化決策系統或教學輔助工具時，建立正確的預期，避免在需要高度環境適應性的任務中過度依賴 AI。

核心研究發現

1
透過提示策略或思考模型啟用 LLM 的「思考軌跡」後，其決策行為會轉向更類人的模式，展現出隨機與定向探索並存的特徵。
2
在簡單的靜態環境中，具備思考能力的 LLM 在隨機與定向探索的比例上，與人類表現出高度相似的水平。
3
在複雜的非靜態環境中，儘管 LLM 在某些情境下能達到與人類相似的悔值（regret），但在有效的定向探索能力上仍難以與人類媲美。

對教育工作者的啟發

對於開發教育科技工具的設計者而言，此研究啟發我們在設計 AI 導師或學習輔助系統時，不應僅追求結果的正確性，更應強調「思考軌跡」的引導。透過設計能引發 AI 進行逐步推理的提示工程，可以讓 AI 在模擬學生決策或提供學習建議時，展現出更符合人類認知特徵的行為。然而，在需要應對複雜、不斷變化的學習情境（如非靜態的 PBL 專題任務）時，應謹慎評估 AI 的決策可靠性，並將其定位為輔助者而非完全自主的決策者。

原始文獻資訊

英文標題：: Comparing Exploration-Exploitation Strategies of LLMs and Humans: Insights from Standard Multi-armed Bandit Experiments
作者：: Ziyuan Zhang, Darcy Wang, Ningyuan Chen, Rodrigo Mansur, Vahid Sarhangian
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。