ai behavioral research llm human-computer interaction simulation

評估大型語言模型在受控實驗中作為人類代理人的效能

arXiv - Human-Computer InteractionAdnan Hoq, Tim Weninger2026年4月20日

研究發現 LLM 能模擬人類的集體信念更新趨勢，但在效應強度與調節模式上與真人數據存在差異。

AI 幫你先抓重點

AI 重點 1

區分「趨勢模擬」與「精確模擬」的界限

滑鼠懸停看 AI 判斷理由

這對於研究者至關重要。理解 LLM 僅能模擬宏觀趨勢而非微觀精確數據，能防止研究者在利用 AI 生成合成數據進行行為實驗時，過度解讀其結果的有效性。

AI 重點 2

警惕模型間的異質性對實驗結果的影響

滑鼠懸停看 AI 判斷理由

由於不同模型在效應強度上存在差異，研究者不能將 LLM 視為單一標準的代理人，在設計基於 AI 的模擬實驗時，必須考慮模型選擇帶來的系統性偏差。

核心研究發現

1
LLM 在準確性感知實驗中能重現人類觀察到的若干方向性效應，顯示其具備模擬人類行為反應的潛力。
2
不同模型在模擬人類反應時，其效應強度（Effect Magnitudes）與調節模式（Moderation Patterns）表現不一。
3
現有的通用型 LLM 雖能捕捉集體信念更新的模式，但無法在所有實驗條件下一致地匹配人類規模的效應。

對教育工作者的啟發

對於開發教育模擬系統或進行大規模學習行為分析的研究者，應將 LLM 視為「趨勢預測工具」而非「精確行為複製工具」。在利用 AI 模擬學生反應進行教學實驗設計時，建議採取「混合驗證法」：先利用 LLM 進行大規模的初步趨勢篩選，隨後必須使用真實學生的數據進行小規模的校準與驗證，以確保模擬結果的效應強度與實際學習情境相符，避免因模型偏差導致錯誤的教學策略決策。

原始文獻資訊

英文標題：: Evaluating LLMs as Human Surrogates in Controlled Experiments
作者：: Adnan Hoq, Tim Weninger
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。