LLM 是否適用於電腦科學教育?跨領域、跨語言與認知層級評估
arXiv - Computers and SocietyChen Gao, Chi Liu, Zhengquan Luo, Dongfu Xiao, Maiying Sui, Sheng Shen, Congcong Zhu, Huajie Chen, Xuhan Zuo, Zongyuan Ge, Tianqing Zhu, Wanlei Zhou, Xiaotong Han
本研究以六項專業認證考題評估四大LLM在中英語境與Bloom層級的表現,揭示GPT‑5、Qwen‑Plus、DeepSeek‑R1各自優勢與局限。
AI 幫你先抓重點
AI 重點 1
LLM在不同語言與Bloom層級的差異化表現揭示語境適應與推理能力的關鍵。
滑鼠懸停看 AI 判斷理由
這一洞察說明教育者在選擇或設計LLM輔助工具時,必須考量語言環境與課程目標,否則可能導致學習成效偏差。
AI 重點 2
專業認證考題作為評估基準,可為課程設計提供實證導向的參考。
滑鼠懸停看 AI 判斷理由
利用真實認證題目能更貼近實務需求,幫助課程設計者評估LLM在實際教學情境中的可行性與限制。
核心研究發現
- 1
GPT‑5 在英語認證考題中表現最佳,達到最高正確率。
- 2
Qwen‑Plus 在中文認證考題中優於其他模型,顯示語言適應性。
- 3
DeepSeek‑R1 在中英雙語環境下表現最均衡,兩語言分數相近。
- 4
Llama‑3.3‑70B‑Instruct 在高階推理與輸入遮蔽測試中顯著不足。
- 5
所有模型在Bloom高階(分析、評估、創造)題目上分數普遍下降。
對教育工作者的啟發
研究顯示不同語言環境下LLM表現差異,建議課程設計者先評估目標語言與Bloom層級需求。英語教學可優先採用GPT‑5,中文教學則可考慮Qwen‑Plus;若需跨語言一致性,DeepSeek‑R1較佳。Llama‑3.3在高階推理與遮蔽測試中表現不足,應避免作核心推理工具。實務上可利用專業認證題庫作為評量素材,設計模擬考試或即時回饋,提升學生自我調節與元認知。持續監測模型準確度與自信度對齊,確保評量公正與學習成效。
原始文獻資訊
- 英文標題:
- Are LLMs Ready for Computer Science Education? A Cross-Domain, Cross-Lingual and Cognitive-Level Evaluation Using Professional Certification Exams
- 作者:
- Chen Gao, Chi Liu, Zhengquan Luo, Dongfu Xiao, Maiying Sui, Sheng Shen, Congcong Zhu, Huajie Chen, Xuhan Zuo, Zongyuan Ge, Tianqing Zhu, Wanlei Zhou, Xiaotong Han
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。