究竟在標註什麼?LLM 社會科學標註中的提示詞間可靠性評估問題

arXiv - Computers and SocietyJingyuan Liu

本文提出「提示詞間可靠性(IPR)」框架,揭示 LLM 在不同提示詞下的輸出穩定性差異。

AI 幫你先抓重點

AI 重點 1

提示詞(Prompt)不應僅被視為指令,而應被視為一種具備不確定性的「測量工具」。

滑鼠懸停看 AI 判斷理由
這改變了研究者對 AI 的認知:提示詞的微小措辭差異會導致測量結果的偏差,因此在進行社會科學研究時,不能僅依賴單一提示詞,必須考慮其測量誤差。
AI 重點 2

從單一提示詞評估轉向「分布穩定性」與「提示詞聚合」是未來研究的關鍵趨勢。

滑鼠懸停看 AI 判斷理由
這對於追求研究嚴謹性的學者至關重要,強調了在利用 LLM 進行數據標註時,必須建立一套標準化的聚合機制來抵消模型隨機性帶來的風險。

核心研究發現

  1. 1

    研究發現 LLM 在處理解釋性任務(如 TREC)時表現出高度隨機性,但在知識錨定任務(如 Politifact)中較為穩定。

  2. 2

    提出 IPR 框架,透過成對一致率(PAR)及其分布來衡量 LLM 在語義相同但語言不同的提示詞下的輸出一致性。

  3. 3

    實驗證明,透過多個提示詞進行「多數決投票(Majority Voting)」能顯著提升結果的可重複性並降低變異量。

對教育工作者的啟發

對於利用 AI 進行自動化評量或數據標註的教育科技開發者而言,此研究提供了重要的警示:在設計自動化評分系統時,若任務涉及主觀解釋(如作文評分或開放式問題),僅使用單一提示詞會導致評分結果不穩定。建議實務上應採用「多提示詞聚合策略」,即針對同一個學生作品,設計數個語義相近但措辭不同的提示詞,並透過多數決或平均值來得出最終評分,以確保評量工具的信度與公平性。

原始文獻資訊

英文標題:
What Is Actually Being Annotated? Inter-Prompt Reliability as a Measurement Problem in LLM-Based Social Science Labeling
作者:
Jingyuan Liu
來源:
arXiv - Computers and Society
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。