SynBullying:多 LLM 合成對話資料集用於網路霸凌偵測

arXiv - Computers and SocietyArefeh Kazemi, Hamza Qadeer, Joachim Wagner, Hossein Hosseini, Sri Balaaji Natarajan Kalaivendan, Brian Davis

本研究提出 SynBullying,一個利用大型語言模型模擬真實霸凌互動的合成對話資料集,提供一個可擴展且合乎倫理的網路霸凌偵測研究方案。

AI 幫你先抓重點

AI 重點 1

合成資料集解決了網路霸凌研究中的資料倫理問題。

滑鼠懸停看 AI 判斷理由
由於真實網路霸凌資料的取得涉及隱私和道德考量,SynBullying 提供了一個安全且可擴展的替代方案,讓研究者能夠在不侵犯個人隱私的前提下,探索和改善網路霸凌偵測技術。
AI 重點 2

上下文感知的標註提升了霸凌偵測的準確性。

滑鼠懸停看 AI 判斷理由
網路霸凌的判斷往往需要考慮對話的整體脈絡,SynBullying 的標註方式模擬了真實情境,能幫助模型理解意圖和語氣,避免誤判,提升偵測的可靠性。

核心研究發現

  1. 1

    SynBullying 資料集模擬了多回合的對話,而非單獨的帖子,更貼近真實網路霸凌情境。

  2. 2

    資料集提供了上下文感知的標註,考量了對話流程、意圖和語文動態,以更準確評估危害性。

  3. 3

    SynBullying 包含精細的標籤,涵蓋了多種網路霸凌類別,有助於深入的語言和行為分析。

  4. 4

    研究評估了資料集在對話結構、詞彙模式、情感/毒性、角色動態、危害強度和霸凌類型分佈等五個維度上的表現。

  5. 5

    SynBullying 可作為獨立的訓練數據,或作為網路霸凌分類的資料增強來源,提升模型效能。

對教育工作者的啟發

SynBullying 資料集為開發更準確、更安全的網路霸凌偵測系統提供了寶貴資源。教育機構可以利用此類工具,監控學生之間的線上互動,及早發現並介入霸凌事件。此外,研究結果也提醒教育工作者,在設計網路安全教育課程時,應強調上下文的重要性,培養學生辨識網路霸凌的能力,並鼓勵他們積極舉報。

原始文獻資訊

英文標題:
SynBullying: A Multi LLM Synthetic Conversational Dataset for Cyberbullying Detection
作者:
Arefeh Kazemi, Hamza Qadeer, Joachim Wagner, Hossein Hosseini, Sri Balaaji Natarajan Kalaivendan, Brian Davis
來源:
arXiv - Computers and Society
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。