edtech assessment ai k-12 learning design

人機協作評估多樣LLM於中學數學自動能力評量基準

arXiv - Computers and SocietyJatin Bhusal, Nancy Mahatha, Aayush Acharya, Raunak Regmi2026年4月30日

提出人機協作框架評估多種LLM於中學數學能力評量，發現架構相容性比參數規模更關鍵。

AI 幫你先抓重點

AI 重點 1

LLM的架構相容性是評量效能的關鍵，而非單純參數規模。

滑鼠懸停看 AI 判斷理由

研究顯示，雖然Orion 70B模型參數量大，但因不符合評量指令限制，kappa_w為負值；相對地，Gemini Mixture-of-Experts雖小，但架構符合指令，達到公平一致。此洞察提醒開發者在選擇模型時，應優先考量架構與任務需求的契合度，而非盲目追求更大參數。

AI 重點 2

人機協作框架能有效利用LLM作為輔助工具，提升初步證據抽取效率。

滑鼠懸停看 AI 判斷理由

雖然LLM無法獨立完成認證，但在教師介入的流程中，模型可快速篩選並生成評量證據，減少教師手動審閱時間，並提升評量一致性。此模式為實務教師提供可落地的輔助方案，促進評量流程的自動化與人性化結合。

AI 重點 3

多維量表結合跨領域能力能更全面評估學生數學能力。

滑鼠懸停看 AI 判斷理由

量表涵蓋理解、知識、操作流暢度、行為與相關性，提供多角度評量資料，幫助教師洞察學生在不同能力層面的表現，進而設計更具針對性的教學與評量策略。

核心研究發現

1
建立以尼泊爾10年級選修數學課程為基礎的四題四能力多維量表，涵蓋理解、知識、操作流暢度、行為與相關性。
2
由兩位資深數學教師定義的真實標準（kappa_w=0.8652）作為基準，對四款LLM（Eagle、Orion、Nova、Lyra）進行評估。
3
Gemini基礎的稀疏Mixture-of-Experts模型達到「公平一致」（kappa_w≈0.38），但較大規模的Orion 70B模型卻呈現「無一致」（kappa_w=-0.0261），顯示架構相容性優於參數規模。
4
研究結論：LLM尚不適合自主認證，但在「人機協作」框架下可為初步證據抽取提供高價值協助。

對教育工作者的啟發

本研究指出，選擇LLM時應優先考量其架構是否符合評量指令，而非單純追求參數規模。教師可先使用小型、架構相容的模型（如Gemini Mixture-of-Experts）進行初步證據抽取，再由教師進行人工校正，形成人機協作流程。為提升評量效能，建議先行設計符合學科特性的多維量表，並將其嵌入LLM的輸入提示中，確保模型輸出與評量標準高度對齊。最後，透過持續的模型校準與教師反饋，逐步提升自動化程度，最終實現高效、可靠的數學能力評量。

原始文獻資訊

英文標題：: Human-in-the-Loop Benchmarking of Heterogeneous LLMs for Automated Competency Assessment in Secondary Level Mathematics
作者：: Jatin Bhusal, Nancy Mahatha, Aayush Acharya, Raunak Regmi
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。