生成式 AI 評估悖論：能解決什麼，卻可能無法評估

arXiv - Human-Computer InteractionJuhyun Oh, Eunsu Kim, Inha Cha, Alice Oh2026年3月9日

研究發現大型語言模型在生成任務表現優秀，但在評估任務上表現較差，甚至在缺乏專業知識時仍能給出可信評價，揭示生成式 AI 的評估悖論。

AI 幫你先抓重點

AI 重點 1

大型語言模型（LLMs）在生成任務中表現出色，但在評估任務中準確率明顯降低，差距約30%。

滑鼠懸停看 AI 判斷理由

這揭示了「生成式 AI 悖論」的核心：擅長創造不代表擅長判斷。對於教育科技開發者和課程設計者而言，這意味著不能直接將LLMs用於自動化評估，更不能完全信任其評分結果，必須謹慎考慮其局限性，避免錯誤的教學決策。

AI 重點 2

即使在缺乏相關知識的領域，LLMs仍能給出看似可信的評分，但其評估結果可能不忠實。

滑鼠懸停看 AI 判斷理由

這點至關重要，因為它挑戰了我們對AI客觀性的假設。對於AI評估專家和高等教育研究者來說，這意味著需要深入研究LLMs的評估機制，建立評估可信度指標，並開發更可靠的評估工具，以確保評估的公正性和有效性，避免潛在的偏誤。

在課程評估中不宜單靠 LLM 生成的評分，應結合人工審核或混合評估模式；針對特定領域可訓練專門的評估模型；建立評估可信度指標，定期檢驗模型輸出；設計信度檢驗流程，確保評分結果的穩定性；鼓勵研究者與實務工作者共同開發可驗證的評估工具，以提升評估品質。

英文標題：: The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate
作者：: Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。