ai edtech assessment learning design higher education

隨機貓頭鷹或和諧歌唱？測試五大 LLM 以複製人類調查的能力

arXiv - Computers and SocietyJason Miklian, Kristian Hoelscher, John E. Katsos2026年5月13日

LLMs能生成技術上合理的合成調查數據，但無法重現人類調查的反直覺洞見，顯示其僅能重複常規智慧。

AI 幫你先抓重點

AI 重點 1

合成調查數據主要重複傳統智慧，缺乏新穎洞見。

滑鼠懸停看 AI 判斷理由

這表明倚賴 LLM 生成的數據可能加強既有偏見，而非發現新現象，對於追求創新研究者而言至關重要。

AI 重點 2

需要健全的驗證協議與報告標準，才能安全使用合成受訪者。

滑鼠懸停看 AI 判斷理由

缺乏明確指引會使研究者誤解合成數據，導致結論失誤與倫理問題。

核心研究發現

1
AI 生成的合成調查回覆雖技術上合理，偏向可重複性與和諧，但未能捕捉人類調查中反直覺的洞見。
2
所有五種 LLM 的偏差聚集在一起，將真實調查數據定位為統計異常。
3
合成調查回覆無法真實模擬組織內人類社會信念，特別缺乏先前證據時；應作為前/後實地工作工具，而非嚴謹調查替代品。

對教育工作者的啟發

研究者在考慮使用 LLM 生成合成問卷時，應先確定其用途為前置假設檢驗或後續驗證，而非直接替代實地調查。建立嚴謹的驗證流程，包含與真實樣本的差異度量、偏差聚類分析及報告透明度指引，可降低偏見傳遞與倫理風險。教育工作者若欲利用合成數據進行課程設計或評量前測，亦應將其視為輔助工具，並配合實際學生回饋進行迭代優化。

原始文獻資訊

英文標題：: Stochastic Parrots or Singing in Harmony? Testing Five Leading LLMs for their Ability to Replicate a Human Survey with Synthetic Data
作者：: Jason Miklian, Kristian Hoelscher, John E. Katsos
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。