ai assessment learning science higher education edtech

人工努力：AI 與大型語言模型對實質努力任務的衝擊

arXiv - Computers and SocietyFederico Belotti, Stefano Coniglio, Antonio Cosma, Francesco Fallucchi2026年5月26日

研究發現 AI 能以極低成本完成多數傳統實驗經濟學中的實質努力任務，挑戰了任務表現能反映真實人類努力的假設。

AI 幫你先抓重點

AI 重點 1

傳統評量工具的有效性邊界正在改變

滑鼠懸停看 AI 判斷理由

過去依賴任務難度與完成度來衡量個人「努力程度」的評量邏輯，在 AI 普及後可能失效。若受試者能輕易將任務外包給 AI，觀察到的表現將不再代表真實的認知投入。

AI 重點 2

非監督式學習環境中的誠信風險增加

滑鼠懸停看 AI 判斷理由

當 AI 能夠以極低成本模擬人類的認知勞動時，教育者必須重新思考如何在非監督環境下區分「真實學習」與「AI 模擬的表現」，這對自主學習評估提出了新挑戰。

核心研究發現

1
在 8 種經典的實質努力任務中，大多數任務已被 23 種大型語言模型（LLMs）精準完成，且成本極低，僅少數任務能抵抗自動化。
2
模型性能隨生成次數增加而提升，且中階模型的表現正迅速縮小與頂尖模型之間的差距，使自動化任務變得更加普及。
3
研究證實，對大型語言模型提供口頭金錢激勵（monetary incentives）對其任務表現完全沒有影響。

對教育工作者的啟發

教育工作者與課程設計者應意識到，單純以「完成任務」作為衡量學習或努力程度的指標已不再可靠。在設計 PBL 或自主學習任務時，應從「結果導向」轉向「過程導向」，例如：要求學生記錄思考軌跡、解釋決策邏輯，或設計必須結合個人經驗與即時反思的任務，以防止學生透過 AI 進行「虛假努力」。此外，評量設計應納入對 AI 使用行為的檢視，而非僅僅禁止使用，以應對 AI 普及化帶來的評量挑戰。

原始文獻資訊

英文標題：: Artificial Effort
作者：: Federico Belotti, Stefano Coniglio, Antonio Cosma, Francesco Fallucchi
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。