ai assessment computational social science reliability methodology

究竟在標註什麼？LLM 社會科學標註中的提示詞間可靠性評估問題

arXiv - Computers and SocietyJingyuan Liu2026年4月21日

本文提出「提示詞間可靠性（IPR）」框架，揭示 LLM 在不同提示詞下的輸出穩定性差異。

AI 幫你先抓重點

AI 重點 1

提示詞（Prompt）不應僅被視為指令，而應被視為一種具備不確定性的「測量工具」。

滑鼠懸停看 AI 判斷理由

這改變了研究者對 AI 的認知：提示詞的微小措辭差異會導致測量結果的偏差，因此在進行社會科學研究時，不能僅依賴單一提示詞，必須考慮其測量誤差。

AI 重點 2

從單一提示詞評估轉向「分布穩定性」與「提示詞聚合」是未來研究的關鍵趨勢。

滑鼠懸停看 AI 判斷理由

這對於追求研究嚴謹性的學者至關重要，強調了在利用 LLM 進行數據標註時，必須建立一套標準化的聚合機制來抵消模型隨機性帶來的風險。

核心研究發現

1
研究發現 LLM 在處理解釋性任務（如 TREC）時表現出高度隨機性，但在知識錨定任務（如 Politifact）中較為穩定。
2
提出 IPR 框架，透過成對一致率（PAR）及其分布來衡量 LLM 在語義相同但語言不同的提示詞下的輸出一致性。
3
實驗證明，透過多個提示詞進行「多數決投票（Majority Voting）」能顯著提升結果的可重複性並降低變異量。

對教育工作者的啟發

對於利用 AI 進行自動化評量或數據標註的教育科技開發者而言，此研究提供了重要的警示：在設計自動化評分系統時，若任務涉及主觀解釋（如作文評分或開放式問題），僅使用單一提示詞會導致評分結果不穩定。建議實務上應採用「多提示詞聚合策略」，即針對同一個學生作品，設計數個語義相近但措辭不同的提示詞，並透過多數決或平均值來得出最終評分，以確保評量工具的信度與公平性。

原始文獻資訊

英文標題：: What Is Actually Being Annotated? Inter-Prompt Reliability as a Measurement Problem in LLM-Based Social Science Labeling
作者：: Jingyuan Liu
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。