數學教育數位影子:LLM 模擬學生與 AI 的表現、焦慮與自信
arXiv - Computers and SocietyNaomi Esposito, Anthony Tricarico, Luisa Porzio, Ali Aghazadeh Ardebili, Massimo Stella
建立MEDS資料集,記錄LLM在數學任務中的推理、成績、焦慮與自信,揭示模型偏差與人類類似情緒。
AI 幫你先抓重點
AI 重點 1
將自我效能、數學焦慮與認知網絡納入數學基準,提供更全面的AI教學評估。
滑鼠懸停看 AI 判斷理由
此方法不僅測量準確度,還能評估AI回饋對學生情緒與認知的影響,協助設計更安全、具同理心的AI導師。
AI 重點 2
發現特定LLM族群表現出人類式負面態度與過度自信,凸顯偏差調整需求。
滑鼠懸停看 AI 判斷理由
了解這些偏差可指導開發者校正AI自信輸出、減少焦慮誘發,提升教學品質與學生信任度。
核心研究發現
- 1
MEDS包含28,000筆人物資料,涵蓋14種LLM(Mistral、Qwen、DeepSeek、Granite、Phi、Grok)在模擬人類或AI助手情境下的表現。
- 2
每筆資料包含提示、心理/社會人口統計資料,以及四類數學任務:開放式面試、心理測量、認知網絡與18題高中數學題,並附推理與自信分數。
- 3
驗證結果顯示LLM保持結構完整與人物一致,且不同族群呈現人類式負面數學態度、邏輯謬誤與過度自信等特徵。
對教育工作者的啟發
教育工作者可利用MEDS評估 AI 教學的情緒影響,調整回饋語氣;課程設計者可根據模型的自信與焦慮指標,設計分層練習;開發者應加入自我效能校正機制,避免過度自信。
原始文獻資訊
- 英文標題:
- Math Education Digital Shadows for facilitating learning with LLMs: Math performance, anxiety and confidence in simulated students and AIs
- 作者:
- Naomi Esposito, Anthony Tricarico, Luisa Porzio, Ali Aghazadeh Ardebili, Massimo Stella
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。