ai assessment research methodology data science edtech

使用大型語言模型模擬人類數據時的分析靈活性威脅

arXiv - Computers and SocietyJamie Cummins2026年4月20日

研究指出使用 LLM 生成「矽樣本」時，不同的參數配置會大幅改變模擬數據與真實人類數據的一致性。

AI 幫你先抓重點

AI 重點 1

警惕「矽樣本」研究中的分析靈活性（Analytic Flexibility）風險

滑鼠懸停看 AI 判斷理由

這項洞察提醒研究者，LLM 模擬數據並非「即插即用」的真理。研究者可能在無意間透過調整參數（如 Prompt 或模型選擇）來「挑選」出符合預期結果的數據，這會導致科學結論的不可靠性。

AI 重點 2

模擬數據的一致性具有高度的不確定性與維度衝突性

滑鼠懸停看 AI 判斷理由

理解這一點對於評估 AI 代理人的有效性至關重要。當我們試圖用 AI 模擬學生行為或學習數據時，必須意識到在統計分佈、排名或相關性上，很難找到一個在所有維度都完美的配置。

核心研究發現

1
在研究一中，252 種不同的矽樣本配置在恢復參與者排名、反應分佈及量表間相關性方面表現不一，且單一維度表現佳的配置往往在其他維度表現不佳。
2
在研究二中，透過對既有研究進行 66 種替代配置的重新檢驗，發現模擬數據與人類關聯結構的相關係數從 r = .23 到 r = .84 不等，差異極大。
3
研究結果證實，研究者選擇不同的模型、採樣參數或提示詞格式等「可辯護」的配置，會實質性地改變對矽樣本忠實度的結論。

對教育工作者的啟發

對於教育科技開發者與研究者，若計畫利用 LLM 模擬學生學習行為或進行大規模教育實驗模擬，應採取以下建議：首先，必須建立標準化的報告規範，詳細記錄所有參數配置（包括模型版本、溫度值、Prompt 結構等），以確保研究的可重複性；其次，不應僅依賴單一配置的結果，應進行敏感度分析，觀察不同參數變化是否會導致結論發生根本性轉變；最後，在將模擬數據用於評估教育干預效果前，應先透過真實的小規模數據進行校準與驗證，避免因「分析靈活性」導致錯誤的教育決策。

原始文獻資訊

英文標題：: The threat of analytic flexibility in using large language models to simulate human data
作者：: Jamie Cummins
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。