生成心理測量中的提示工程:規模發展
arXiv - Human-Computer InteractionLara Lee Russell-Lasalandra, Hudson Golino
本研究透過蒙地卡羅模擬,探討提示工程策略如何影響大型語言模型(LLM)生成人格測驗題目的品質,並發現適應性提示能有效提升效度。
AI 幫你先抓重點
AI 重點 1
適應性提示優於其他策略。
滑鼠懸停看 AI 判斷理由
研究發現適應性提示能有效降低語義冗餘,提升結構效度,並保留較大的題目池,這對於利用 LLM 生成高品質心理測驗題目至關重要,能幫助研究者和教育工作者更有效地運用 AI 工具。
AI 重點 2
模型特性影響提示效果。
滑鼠懸停看 AI 判斷理由
GPT-4o 在高溫設定下表現出對適應性提示的敏感性,突顯了不同 LLM 對提示策略的反應存在差異。這意味著在應用 AI 生成測驗題目時,需要考慮模型的特性,並進行相應的調整。
核心研究發現
- 1
AI-GENIE 框架在降低題目池後,能可靠地提升結構效度,且效度提升幅度與原始題目池的品質成反比。
- 2
提示設計對題目池在降低題目池前後的品質都有顯著影響,顯示提示工程的重要性。
- 3
適應性提示相較於非適應性策略,能大幅降低語義冗餘,提升降低題目池前的結構效度,並保留較大的題目池。
- 4
適應性提示的優勢在大多數模型和溫度設定下都具有穩健性,能減輕創造性與心理測量一致性之間的常見權衡。
- 5
GPT-4o 模型在高溫設定下對適應性限制的敏感度較高,暗示模型對不同提示策略的反應存在差異。
對教育工作者的啟發
本研究為利用大型語言模型(LLM)生成心理測驗題目提供了實務指導。教育工作者和研究者應優先考慮使用適應性提示策略,以提升題目的品質和效度。此外,在選擇 LLM 時,應考慮模型的特性,並針對不同模型調整提示策略。透過精心的提示工程,可以有效利用 AI 技術,開發出更可靠、更有效的心理測驗工具,進而提升學習評估和教學效果。
原始文獻資訊
- 英文標題:
- Prompt Engineering for Scale Development in Generative Psychometrics
- 作者:
- Lara Lee Russell-Lasalandra, Hudson Golino
- 來源:
- arXiv - Human-Computer Interaction
- AI 摘要模型:
- ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。