edtech assessment higher education ai learning design

LLM 是否適用於電腦科學教育？跨領域、跨語言與認知層級評估

arXiv - Computers and SocietyChen Gao, Chi Liu, Zhengquan Luo, Dongfu Xiao, Maiying Sui, Sheng Shen, Congcong Zhu, Huajie Chen, Xuhan Zuo, Zongyuan Ge, Tianqing Zhu, Wanlei Zhou, Xiaotong Han2026年4月9日

本研究以六項專業認證考題評估四大LLM在中英語境與Bloom層級的表現，揭示GPT‑5、Qwen‑Plus、DeepSeek‑R1各自優勢與局限。

AI 幫你先抓重點

AI 重點 1

LLM在不同語言與Bloom層級的差異化表現揭示語境適應與推理能力的關鍵。

滑鼠懸停看 AI 判斷理由

這一洞察說明教育者在選擇或設計LLM輔助工具時，必須考量語言環境與課程目標，否則可能導致學習成效偏差。

AI 重點 2

專業認證考題作為評估基準，可為課程設計提供實證導向的參考。

滑鼠懸停看 AI 判斷理由

利用真實認證題目能更貼近實務需求，幫助課程設計者評估LLM在實際教學情境中的可行性與限制。

核心研究發現

1
GPT‑5 在英語認證考題中表現最佳，達到最高正確率。
2
Qwen‑Plus 在中文認證考題中優於其他模型，顯示語言適應性。
3
DeepSeek‑R1 在中英雙語環境下表現最均衡，兩語言分數相近。
4
Llama‑3.3‑70B‑Instruct 在高階推理與輸入遮蔽測試中顯著不足。
5
所有模型在Bloom高階（分析、評估、創造）題目上分數普遍下降。

對教育工作者的啟發

研究顯示不同語言環境下LLM表現差異，建議課程設計者先評估目標語言與Bloom層級需求。英語教學可優先採用GPT‑5，中文教學則可考慮Qwen‑Plus；若需跨語言一致性，DeepSeek‑R1較佳。Llama‑3.3在高階推理與遮蔽測試中表現不足，應避免作核心推理工具。實務上可利用專業認證題庫作為評量素材，設計模擬考試或即時回饋，提升學生自我調節與元認知。持續監測模型準確度與自信度對齊，確保評量公正與學習成效。

原始文獻資訊

英文標題：: Are LLMs Ready for Computer Science Education? A Cross-Domain, Cross-Lingual and Cognitive-Level Evaluation Using Professional Certification Exams
作者：: Chen Gao, Chi Liu, Zhengquan Luo, Dongfu Xiao, Maiying Sui, Sheng Shen, Congcong Zhu, Huajie Chen, Xuhan Zuo, Zongyuan Ge, Tianqing Zhu, Wanlei Zhou, Xiaotong Han
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。