SynBullying:多 LLM 合成對話資料集用於網路霸凌偵測
arXiv - Computers and SocietyArefeh Kazemi, Hamza Qadeer, Joachim Wagner, Hossein Hosseini, Sri Balaaji Natarajan Kalaivendan, Brian Davis
本研究提出 SynBullying,一個利用大型語言模型模擬真實霸凌互動的合成對話資料集,提供一個可擴展且合乎倫理的網路霸凌偵測研究方案。
AI 幫你先抓重點
AI 重點 1
合成資料集解決了網路霸凌研究中的資料倫理問題。
滑鼠懸停看 AI 判斷理由
由於真實網路霸凌資料的取得涉及隱私和道德考量,SynBullying 提供了一個安全且可擴展的替代方案,讓研究者能夠在不侵犯個人隱私的前提下,探索和改善網路霸凌偵測技術。
AI 重點 2
上下文感知的標註提升了霸凌偵測的準確性。
滑鼠懸停看 AI 判斷理由
網路霸凌的判斷往往需要考慮對話的整體脈絡,SynBullying 的標註方式模擬了真實情境,能幫助模型理解意圖和語氣,避免誤判,提升偵測的可靠性。
核心研究發現
- 1
SynBullying 資料集模擬了多回合的對話,而非單獨的帖子,更貼近真實網路霸凌情境。
- 2
資料集提供了上下文感知的標註,考量了對話流程、意圖和語文動態,以更準確評估危害性。
- 3
SynBullying 包含精細的標籤,涵蓋了多種網路霸凌類別,有助於深入的語言和行為分析。
- 4
研究評估了資料集在對話結構、詞彙模式、情感/毒性、角色動態、危害強度和霸凌類型分佈等五個維度上的表現。
- 5
SynBullying 可作為獨立的訓練數據,或作為網路霸凌分類的資料增強來源,提升模型效能。
對教育工作者的啟發
SynBullying 資料集為開發更準確、更安全的網路霸凌偵測系統提供了寶貴資源。教育機構可以利用此類工具,監控學生之間的線上互動,及早發現並介入霸凌事件。此外,研究結果也提醒教育工作者,在設計網路安全教育課程時,應強調上下文的重要性,培養學生辨識網路霸凌的能力,並鼓勵他們積極舉報。
原始文獻資訊
- 英文標題:
- SynBullying: A Multi LLM Synthetic Conversational Dataset for Cyberbullying Detection
- 作者:
- Arefeh Kazemi, Hamza Qadeer, Joachim Wagner, Hossein Hosseini, Sri Balaaji Natarajan Kalaivendan, Brian Davis
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。