ai edtech linguistics digital equity language learning

大型語言模型偏好哪種英語？探討基礎模型對美式英語的結構性偏見

arXiv - Computers and SocietyMir Tafseer Nayeem, Davood Rafiei2026年4月7日

本研究證實大型語言模型在預訓練、分詞及生成階段皆存在明顯的美式英語偏見，可能導致語言同質化。

AI 幫你先抓重點

AI 重點 1

AI 發展中的語言同質化風險

滑鼠懸停看 AI 判斷理由

這項發現提醒開發者與使用者，AI 可能在無形中抹除語言的多樣性，將美式英語強行定義為全球標準，進而造成文化與認知的單一化。

AI 重點 2

技術架構層面的結構性不平等

滑鼠懸停看 AI 判斷理由

偏見不僅存在於內容，更深植於分詞器等底層技術中。這意味著僅靠微調（fine-tuning）可能不足以解決問題，必須從數據與架構層面重新審視。

核心研究發現

1
對六大主流預訓練語料庫的審計顯示，數據內容存在系統性向美式英語（AmE）傾斜的現象。
2
分詞器分析發現，英式英語（BrE）的變體在處理時會產生更高的分詞成本（segmentation costs）。
3
生成式評估結果證實，模型在輸出內容時會持續表現出對美式英語的偏好，將其視為標準規範。

對教育工作者的啟發

對於教育科技設計者而言，應警惕 AI 工具可能帶來的「語言殖民主義」。在開發全球化的學習平台時，不應僅依賴主流 LLM 的預設輸出，而應考慮引入多樣化的語言變體數據，以確保不同文化背景的學生不會因語言慣用法（如拼寫、語法）的差異而受到技術性的歧視或認知上的不公平。在設計語言學習或自動評分系統時，必須將語言多樣性納入評估指標，避免將美式英語誤植為唯一的正確標準。

原始文獻資訊

英文標題：: Which English Do LLMs Prefer? Triangulating Structural Bias Towards American English in Foundation Models
作者：: Mir Tafseer Nayeem, Davood Rafiei
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。