ai edtech assessment knowledge building higher education

誰與何？利用語言特徵與注釋者特性分析標註差異

arXiv - Computers and SocietyMaximilian Maurer, Maximilian Linde, Gabriella Lapesa2026年5月8日

首次大規模結合注釋者特性與文本語言特徵，揭示交互效應對有害語言標註差異的影響，提示跨資料集泛化需謹慎。

AI 幫你先抓重點

AI 重點 1

交互效應揭示有害語言標註差異的多維性，提醒研究者不能僅依賴單一因素。

滑鼠懸停看 AI 判斷理由

此洞察強調了在設計自動化標註工具或評估標準時，必須同時考慮注釋者背景與文本特徵，否則模型可能忽略關鍵偏差，導致評估失真。

AI 重點 2

詞彙線索在標註差異中扮演核心角色，提示在資料標註前可透過關鍵字篩選或加權提升一致性。

滑鼠懸停看 AI 判斷理由

了解詞彙對標註的影響可協助設計更有效的標註指引或自動化輔助，降低人工成本並提升資料品質。

核心研究發現

1
在四個有害語言資料集上，注釋者的社會人口特徵與態度與文本詞彙特徵共同決定標註一致性，交互效應顯著。
2
詞彙線索（如情感詞、關鍵字）對標註結果影響最大，而單獨考慮語料或注釋者特性均不足以解釋差異。
3
不同資料集間效應模式差異顯著，表明單一模型或規則難以在多樣化有害語言場景中直接轉移。

對教育工作者的啟發

研究指出，單純依賴詞彙或注釋者背景無法完全預測標註一致性，實務上應先進行交互效應分析，確定哪些詞彙與注釋者特性共同影響判斷。對於有害語言檢測系統的開發者，可在標註前設計多元化的注釋者招募策略，並在標註指引中加入針對高影響詞彙的明確說明，提升一致性與資料可重現性。若需跨資料集應用，建議先驗證交互模式是否相容，避免直接套用已訓練模型而造成偏差。

原始文獻資訊

英文標題：: Who and What? Using Linguistic Features and Annotator Characteristics to Analyze Annotation Variation
作者：: Maximilian Maurer, Maximilian Linde, Gabriella Lapesa
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。