人機協作評估多樣LLM於中學數學自動能力評量基準

arXiv - Computers and SocietyJatin Bhusal, Nancy Mahatha, Aayush Acharya, Raunak Regmi

提出人機協作框架評估多種LLM於中學數學能力評量,發現架構相容性比參數規模更關鍵。

AI 幫你先抓重點

AI 重點 1

LLM的架構相容性是評量效能的關鍵,而非單純參數規模。

滑鼠懸停看 AI 判斷理由
研究顯示,雖然Orion 70B模型參數量大,但因不符合評量指令限制,kappa_w為負值;相對地,Gemini Mixture-of-Experts雖小,但架構符合指令,達到公平一致。此洞察提醒開發者在選擇模型時,應優先考量架構與任務需求的契合度,而非盲目追求更大參數。
AI 重點 2

人機協作框架能有效利用LLM作為輔助工具,提升初步證據抽取效率。

滑鼠懸停看 AI 判斷理由
雖然LLM無法獨立完成認證,但在教師介入的流程中,模型可快速篩選並生成評量證據,減少教師手動審閱時間,並提升評量一致性。此模式為實務教師提供可落地的輔助方案,促進評量流程的自動化與人性化結合。
AI 重點 3

多維量表結合跨領域能力能更全面評估學生數學能力。

滑鼠懸停看 AI 判斷理由
量表涵蓋理解、知識、操作流暢度、行為與相關性,提供多角度評量資料,幫助教師洞察學生在不同能力層面的表現,進而設計更具針對性的教學與評量策略。

核心研究發現

  1. 1

    建立以尼泊爾10年級選修數學課程為基礎的四題四能力多維量表,涵蓋理解、知識、操作流暢度、行為與相關性。

  2. 2

    由兩位資深數學教師定義的真實標準(kappa_w=0.8652)作為基準,對四款LLM(Eagle、Orion、Nova、Lyra)進行評估。

  3. 3

    Gemini基礎的稀疏Mixture-of-Experts模型達到「公平一致」(kappa_w≈0.38),但較大規模的Orion 70B模型卻呈現「無一致」(kappa_w=-0.0261),顯示架構相容性優於參數規模。

  4. 4

    研究結論:LLM尚不適合自主認證,但在「人機協作」框架下可為初步證據抽取提供高價值協助。

對教育工作者的啟發

本研究指出,選擇LLM時應優先考量其架構是否符合評量指令,而非單純追求參數規模。教師可先使用小型、架構相容的模型(如Gemini Mixture-of-Experts)進行初步證據抽取,再由教師進行人工校正,形成人機協作流程。為提升評量效能,建議先行設計符合學科特性的多維量表,並將其嵌入LLM的輸入提示中,確保模型輸出與評量標準高度對齊。最後,透過持續的模型校準與教師反饋,逐步提升自動化程度,最終實現高效、可靠的數學能力評量。

原始文獻資訊

英文標題:
Human-in-the-Loop Benchmarking of Heterogeneous LLMs for Automated Competency Assessment in Secondary Level Mathematics
作者:
Jatin Bhusal, Nancy Mahatha, Aayush Acharya, Raunak Regmi
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。