ai assessment edtech psychometrics learning design

生成心理測量中的提示工程：規模發展

arXiv - Human-Computer InteractionLara Lee Russell-Lasalandra, Hudson Golino2026年3月18日

本研究透過蒙地卡羅模擬，探討提示工程策略如何影響大型語言模型（LLM）生成人格測驗題目的品質，並發現適應性提示能有效提升效度。

AI 幫你先抓重點

AI 重點 1

適應性提示優於其他策略。

滑鼠懸停看 AI 判斷理由

研究發現適應性提示能有效降低語義冗餘，提升結構效度，並保留較大的題目池，這對於利用 LLM 生成高品質心理測驗題目至關重要，能幫助研究者和教育工作者更有效地運用 AI 工具。

AI 重點 2

模型特性影響提示效果。

滑鼠懸停看 AI 判斷理由

GPT-4o 在高溫設定下表現出對適應性提示的敏感性，突顯了不同 LLM 對提示策略的反應存在差異。這意味著在應用 AI 生成測驗題目時，需要考慮模型的特性，並進行相應的調整。

核心研究發現

1
AI-GENIE 框架在降低題目池後，能可靠地提升結構效度，且效度提升幅度與原始題目池的品質成反比。
2
提示設計對題目池在降低題目池前後的品質都有顯著影響，顯示提示工程的重要性。
3
適應性提示相較於非適應性策略，能大幅降低語義冗餘，提升降低題目池前的結構效度，並保留較大的題目池。
4
適應性提示的優勢在大多數模型和溫度設定下都具有穩健性，能減輕創造性與心理測量一致性之間的常見權衡。
5
GPT-4o 模型在高溫設定下對適應性限制的敏感度較高，暗示模型對不同提示策略的反應存在差異。

對教育工作者的啟發

本研究為利用大型語言模型（LLM）生成心理測驗題目提供了實務指導。教育工作者和研究者應優先考慮使用適應性提示策略，以提升題目的品質和效度。此外，在選擇 LLM 時，應考慮模型的特性，並針對不同模型調整提示策略。透過精心的提示工程，可以有效利用 AI 技術，開發出更可靠、更有效的心理測驗工具，進而提升學習評估和教學效果。

原始文獻資訊

英文標題：: Prompt Engineering for Scale Development in Generative Psychometrics
作者：: Lara Lee Russell-Lasalandra, Hudson Golino
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。