ai bias nlp low-resource languages sociotechnical systems

數據、開發者與模型如何影響低資源語言的偏見：以孟加拉語為例

arXiv - Computers and SocietyDipto Das, Shion Guha, Bryan Semaan2026年5月8日

本研究揭示了即使使用特定語言模型與數據集，孟加拉語的情感分析模型仍存在顯著的性別、宗教與國籍偏見。

AI 幫你先抓重點

AI 重點 1

語言技術中的偏見並非單純的技術問題，而是社會技術系統的結果。

滑鼠懸停看 AI 判斷理由

這提醒讀者，解決 AI 偏見不能僅靠增加數據量或優化模型架構，必須同時考量開發者的背景、文化脈絡以及數據背後的社會權力結構。

AI 重點 2

低資源語言的 AI 開發面臨「認識論不義」的風險。

滑鼠懸停看 AI 判斷理由

這對於開發全球化教育工具的人員至關重要，若忽視了特定語言文化中的價值觀，AI 可能會強化既有的社會偏見，進而對邊緣化社群造成二次傷害。

核心研究發現

1
研究發現孟加拉語情感分析模型在處理不同身份類別時表現不一，即便其語義內容與結構高度相似，仍展現出顯著偏見。
2
透過對 mBERT 與 BanglaBERT 模型進行演算法審計，證實了僅依賴特定語言數據集並不足以消除身份認同相關的偏見。
3
研究指出，結合來自不同人口統計背景開發者的預訓練模型與數據集時，會產生不一致性與不確定性問題。

對教育工作者的啟發

對於開發教育科技工具的設計者而言，應意識到「語言中立」並不代表「偏見中立」。在設計針對非英語或低資源語言的學習平台時，不應僅追求模型精準度，更需建立多樣化的審計機制，檢查模型在處理不同族群（如宗教、性別）內容時的表現。建議在開發流程中引入多元文化背景的審查員，並在數據收集階段納入社會學視角，以避免 AI 系統在教育應用中無意間強化了社會偏見或造成文化排斥。

原始文獻資訊

英文標題：: How do datasets, developers, and models affect biases in a low-resourced language?: The Case of the Bengali Language
作者：: Dipto Das, Shion Guha, Bryan Semaan
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。