ai edtech assessment learning design k-12

多代理方法驗證與優化 LLM 生成的個人化數學題目

arXiv - Computers and SocietyFareya Ikram, Nischal Ashok Kumar, Junyang Lu, Hunter McNichols, Candace Walkington, Neil Heffernan, Andrew S. Lan2026年4月8日

提出多代理框架，通過生成-驗證-修訂迭代，顯著提升 LLM 生成個人化數學題目的真實性與可解性。

AI 幫你先抓重點

AI 重點 1

多代理迭代流程能在單次修訂中顯著提升題目真實性與可解性。

滑鼠懸停看 AI 判斷理由

此方法證明可在大規模個人化中自動化提升題目品質，減少人工審核成本，對教育科技實務具有直接可落地價值。

AI 重點 2

驗證代理在真實性評估上的低可靠性揭示自動化評估局限，需結合人類專家與學生反饋以確保品質。

滑鼠懸停看 AI 判斷理由

指出單靠機器評估不足以捕捉學生真實需求，提醒設計者在系統中嵌入人機協作機制。

核心研究發現

1
初始 LLM 個人化題目中，真實性與可解性失敗最頻繁，單次修訂可大幅降低失敗率。
2
四個專門驗證代理（可解性、真實性、可讀性、真實感）在不同修訂策略下對各評估指標的影響不同，某些策略更適合提升可讀性，而其他策略更適合提升真實性。
3
人工評估顯示驗證代理在真實性評估上的可靠性最低，提示需改進評估協議以納入教師與學生特性。

對教育工作者的啟發

實務工作者可先使用單次修訂迭代，快速提升題目真實性與可解性；選擇適合的修訂策略（如以可讀性為主或以真實性為主）可根據教學目標調整；在驗證階段加入教師或學生的即時回饋，特別針對真實性評估，可大幅提升最終題目品質；同時建議開發者設計可擴充的驗證代理模組，方便未來加入更多評估指標或調整評分規則。

原始文獻資訊

英文標題：: A Multi-Agent Approach to Validate and Refine LLM-Generated Personalized Math Problems
作者：: Fareya Ikram, Nischal Ashok Kumar, Junyang Lu, Hunter McNichols, Candace Walkington, Neil Heffernan, Andrew S. Lan
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。