生成心理測量中的提示工程:規模發展

arXiv - Human-Computer InteractionLara Lee Russell-Lasalandra, Hudson Golino

本研究透過蒙地卡羅模擬,探討提示工程策略如何影響大型語言模型(LLM)生成人格測驗題目的品質,並發現適應性提示能有效提升效度。

AI 幫你先抓重點

AI 重點 1

適應性提示優於其他策略。

滑鼠懸停看 AI 判斷理由
研究發現適應性提示能有效降低語義冗餘,提升結構效度,並保留較大的題目池,這對於利用 LLM 生成高品質心理測驗題目至關重要,能幫助研究者和教育工作者更有效地運用 AI 工具。
AI 重點 2

模型特性影響提示效果。

滑鼠懸停看 AI 判斷理由
GPT-4o 在高溫設定下表現出對適應性提示的敏感性,突顯了不同 LLM 對提示策略的反應存在差異。這意味著在應用 AI 生成測驗題目時,需要考慮模型的特性,並進行相應的調整。

核心研究發現

  1. 1

    AI-GENIE 框架在降低題目池後,能可靠地提升結構效度,且效度提升幅度與原始題目池的品質成反比。

  2. 2

    提示設計對題目池在降低題目池前後的品質都有顯著影響,顯示提示工程的重要性。

  3. 3

    適應性提示相較於非適應性策略,能大幅降低語義冗餘,提升降低題目池前的結構效度,並保留較大的題目池。

  4. 4

    適應性提示的優勢在大多數模型和溫度設定下都具有穩健性,能減輕創造性與心理測量一致性之間的常見權衡。

  5. 5

    GPT-4o 模型在高溫設定下對適應性限制的敏感度較高,暗示模型對不同提示策略的反應存在差異。

對教育工作者的啟發

本研究為利用大型語言模型(LLM)生成心理測驗題目提供了實務指導。教育工作者和研究者應優先考慮使用適應性提示策略,以提升題目的品質和效度。此外,在選擇 LLM 時,應考慮模型的特性,並針對不同模型調整提示策略。透過精心的提示工程,可以有效利用 AI 技術,開發出更可靠、更有效的心理測驗工具,進而提升學習評估和教學效果。

原始文獻資訊

英文標題:
Prompt Engineering for Scale Development in Generative Psychometrics
作者:
Lara Lee Russell-Lasalandra, Hudson Golino
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。