edtech assessment higher education ai learning design

可擴展且個性化的語音 AI 口試系統

arXiv - Computers and SocietyPanos Ipeirotis, Konstantinos Rizakos2026年3月20日

利用語音 AI 與多代理架構，低成本實現可擴展、個性化口試，並證明評分可靠性高。

AI 幫你先抓重點

AI 重點 1

多代理評分委員會提升評分一致性

滑鼠懸停看 AI 判斷理由

透過討論修正分數，Krippendorff's α 0.86，超越傳統評分閾值，證明多代理架構能提供可靠且可驗證的自動評分，對於大規模評估尤為重要。

AI 重點 2

低成本語音 AI 口試可在每次作業後即時實施

滑鼠懸停看 AI 判斷理由

每位學生僅 $0.42 的成本，使得口試能在每次作業後即時進行，突破傳統口試的規模與成本限制，提升評估頻率與即時性。

AI 重點 3

行為限制需透過架構而非單純提示

滑鼠懸停看 AI 判斷理由

系統失控案例顯示，僅靠提示無法約束 LLM 行為，必須在架構層面設計限制，才能確保評估流程的安全與公平。

核心研究發現

1
透過 LLM 動態生成題目，口試可在每次作業前提前共享，避免考題外洩。
2
以三個 LLM 家族組成評分委員會，透過討論修正分數，Krippendorff's α 0.86，達到高一致性。
3
系統成本僅 $0.42/學生，總費用 $15，足以在課程中每次作業後即時進行口試。
4
口試流程被拆分為多階段代理，確保實時推理並防止 LLM 事先預先回答。
5
但系統仍出現行為失控：題目堆疊、案例無法隨機化、模仿教授聲音被視為攻擊性，顯示需透過架構限制行為。

對教育工作者的啟發

本研究示範低成本語音 AI 可實現可擴展口試，建議教育工作者先行設計可共享的 rubric，並以多代理架構分階段進行口試與評分。評分委員會可透過討論修正分數，提升一致性。為避免行為失控，需在系統架構中嵌入行為限制機制，如題目隨機化、聲音模仿監控等。最後，將口試結果與書面作業結合，可促進學生即時反饋與自主學習。

原始文獻資訊

英文標題：: Scalable and Personalized Oral Assessments Using Voice AI
作者：: Panos Ipeirotis, Konstantinos Rizakos
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。