ai edtech assessment learning design srl

探索提示空間：提升大型語言模型對社會科學文本的分類能力

arXiv - Computers and SocietyErkan Gunes, Christoffer Florczak, Tevfik Murat Yildirim2026年3月27日

本研究透過系統性調整提示工程的三個面向，探討如何提升大型語言模型在社會科學文本分類上的準確性，並揭示模型效能的異質性。

AI 幫你先抓重點

AI 重點 1

提示工程的微調能顯著提升模型效能。

滑鼠懸停看 AI 判斷理由

這項發現對於教育科技的應用至關重要，因為它意味著我們可以透過優化提示設計，更有效地利用大型語言模型進行文本分析，例如學生作業的自動評分或學習資料的分類。

AI 重點 2

模型效能存在高度異質性，需個別驗證。

滑鼠懸停看 AI 判斷理由

這點提醒教育工作者，不能直接套用其他研究的結果，而需要針對所使用的模型和任務，進行獨立的效能評估，以確保準確性與可靠性。

核心研究發現

1
增加提示的上下文資訊，初期能有效提升模型效能，但過多的上下文反而可能降低準確度。
2
不同模型、任務和批次大小之間存在顯著的異質性，需要針對每個大型語言模型任務進行個別驗證。
3
在提示設計中，對標籤的描述、指令的引導以及少量樣本的運用，都能影響模型的分類效能。
4
最小程度的提示上下文增加，通常能帶來效能的最高增益，而後續的增加則帶來邊際效益遞減。
5
研究結果強調，不應依賴通用的規則，而應針對特定任務和模型，進行精細的提示工程調整。

對教育工作者的啟發

教育工作者在運用大型語言模型於教學時，應注意提示工程的重要性。透過精心的提示設計，可以提升模型在特定任務上的準確性，例如自動化評量、學習資源推薦等。此外，由於不同模型之間存在差異，建議針對所使用的模型進行個別驗證，避免過度依賴通用規則。在設計提示時，應避免過多的上下文資訊，並嘗試不同的標籤描述和指令引導方式，以找到最佳的提示策略。此研究也提醒教育者，在導入AI工具時，應保持批判性思考，並持續評估其效能與可靠性。

原始文獻資訊

英文標題：: Navigating the Prompt Space: Improving LLM Classification of Social Science Texts Through Prompt Engineering
作者：: Erkan Gunes, Christoffer Florczak, Tevfik Murat Yildirim
來源：: arXiv - Computers and Society
AI 摘要模型：: ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。