走向 PLACES:全球南部文本圖像安全的參與式本地化紅隊測試
arXiv - Computers and SocietyCharvi Rastogi, Mukul Bhutani, Minsuk Kahng, Shamsuddeen Hassan Muhammad, Evgeniia Razumovskaia, Priyanka Suresh, Ibrahim Said Ahmad, Charu Kalia, Yaaseen Mahomed, Madhurima Maji, Minjae Lee, Alicia Parrish, Jessica Quaye, Vijay Janapa Reddi, Aishwarya Verma, Lora Aroyo
透過在全球南部城市中心進行社群參與式紅隊測試,建立26,000+本地化T2I失效案例資料集,揭示文化語言差異帶來的新型安全風險。
AI 幫你先抓重點
AI 重點 1
本地化紅隊測試揭示文化語境對AI安全的關鍵影響
滑鼠懸停看 AI 判斷理由
因為安全框架若僅以西方標準為基礎,將忽略全球南部特有的宗教、風俗與語言風險,導致模型在實際應用中產生不可預見的危害。
AI 重點 2
26,000+案例資料集為跨文化AI安全研究提供實證基礎
滑鼠懸停看 AI 判斷理由
該資料集涵蓋多語言、多文化情境,可用於模型微調、風險評估與政策制定,促進更具包容性的AI安全設計。
核心研究發現
- 1
建立了PLACES資料集,包含26,000+ T2I模型失效案例,來自加納、尼日利亞、印度卡納塔克邦與旁遮普邦。
- 2
研究發現本地語言與文化背景產生獨特的對抗模式,尤其在印度宗教主題上形成明顯聚類。
- 3
透過分析,揭示現有安全框架缺乏對宗教規範、地方風俗與陰森符號的考量,呈現結構性語境缺口。
對教育工作者的啟發
1. 在AI安全評估流程中納入本地文化審查與語境檢測;2. 與當地大學合作舉辦工作坊,培養本地紅隊人才;3. 建立多語言、跨文化測試平台,持續更新案例庫;4. 對宗教與風俗敏感性進行專門測試,避免違反地方規範;5. 使用PLACES資料集進行模型微調與風險評估,提升模型在全球南部的適應性。
原始文獻資訊
- 英文標題:
- Going PLACES: Participatory Localized Red Teaming for Text-to-Image Safety in the Global South
- 作者:
- Charvi Rastogi, Mukul Bhutani, Minsuk Kahng, Shamsuddeen Hassan Muhammad, Evgeniia Razumovskaia, Priyanka Suresh, Ibrahim Said Ahmad, Charu Kalia, Yaaseen Mahomed, Madhurima Maji, Minjae Lee, Alicia Parrish, Jessica Quaye, Vijay Janapa Reddi, Aishwarya Verma, Lora Aroyo
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。