LLM 是否適用於電腦科學教育?跨領域、跨語言與認知層級評估

arXiv - Computers and SocietyChen Gao, Chi Liu, Zhengquan Luo, Dongfu Xiao, Maiying Sui, Sheng Shen, Congcong Zhu, Huajie Chen, Xuhan Zuo, Zongyuan Ge, Tianqing Zhu, Wanlei Zhou, Xiaotong Han

本研究以六項專業認證考題評估四大LLM在中英語境與Bloom層級的表現,揭示GPT‑5、Qwen‑Plus、DeepSeek‑R1各自優勢與局限。

AI 幫你先抓重點

AI 重點 1

LLM在不同語言與Bloom層級的差異化表現揭示語境適應與推理能力的關鍵。

滑鼠懸停看 AI 判斷理由
這一洞察說明教育者在選擇或設計LLM輔助工具時,必須考量語言環境與課程目標,否則可能導致學習成效偏差。
AI 重點 2

專業認證考題作為評估基準,可為課程設計提供實證導向的參考。

滑鼠懸停看 AI 判斷理由
利用真實認證題目能更貼近實務需求,幫助課程設計者評估LLM在實際教學情境中的可行性與限制。

核心研究發現

  1. 1

    GPT‑5 在英語認證考題中表現最佳,達到最高正確率。

  2. 2

    Qwen‑Plus 在中文認證考題中優於其他模型,顯示語言適應性。

  3. 3

    DeepSeek‑R1 在中英雙語環境下表現最均衡,兩語言分數相近。

  4. 4

    Llama‑3.3‑70B‑Instruct 在高階推理與輸入遮蔽測試中顯著不足。

  5. 5

    所有模型在Bloom高階(分析、評估、創造)題目上分數普遍下降。

對教育工作者的啟發

研究顯示不同語言環境下LLM表現差異,建議課程設計者先評估目標語言與Bloom層級需求。英語教學可優先採用GPT‑5,中文教學則可考慮Qwen‑Plus;若需跨語言一致性,DeepSeek‑R1較佳。Llama‑3.3在高階推理與遮蔽測試中表現不足,應避免作核心推理工具。實務上可利用專業認證題庫作為評量素材,設計模擬考試或即時回饋,提升學生自我調節與元認知。持續監測模型準確度與自信度對齊,確保評量公正與學習成效。

原始文獻資訊

英文標題:
Are LLMs Ready for Computer Science Education? A Cross-Domain, Cross-Lingual and Cognitive-Level Evaluation Using Professional Certification Exams
作者:
Chen Gao, Chi Liu, Zhengquan Luo, Dongfu Xiao, Maiying Sui, Sheng Shen, Congcong Zhu, Huajie Chen, Xuhan Zuo, Zongyuan Ge, Tianqing Zhu, Wanlei Zhou, Xiaotong Han
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。