大型語言模型中的語言刻板印象分析

arXiv - Artificial IntelligenceMartina Ullasci, Marco Rondina, Riccardo Coppola, Flavio Giobergia, Riccardo Bellanca, Gabriele Mancari Pasi, Luca Prato, Federico Spinoso, Silvia Tagliente2026年3月21日

本研究探討了大型語言模型（LLM）在不同方言輸入下產生的刻板印象，並評估了提示工程和多智能體架構等緩解策略。

AI 幫你先抓重點

AI 重點 1

LLM在方言處理中存在刻板印象。

滑鼠懸停看 AI 判斷理由

了解LLM在不同語言變體中的偏見至關重要，因為這會影響其在教育等領域的公平性和準確性，尤其是在涉及語言學習和評估時。這也突顯了AI系統中潛在的偏見問題。

AI 重點 2

多智能體架構能有效減輕偏見。

滑鼠懸停看 AI 判斷理由

多智能體架構（生成-評估-修改）提供了一種有前景的解決方案，可以系統地降低LLM中的偏見，這對於開發更可靠和公正的教育科技工具至關重要，並能提升AI在教學中的應用價值。

核心研究發現

1
LLM的輸出在處理標準美式英語（SAE）和非裔美國英語（AAE）時，會表現出基於方言的歧視行為，並產生刻板印象。
2
在命名、職業和形容詞的歸因方面，SAE和AAE相關的輸出之間存在顯著差異，其中形容詞和職業的差異最為突出。
3
不同模型在基線差異上表現不同，Claude Haiku的SAE-AAE差異最大，Phi-4 Mini的差異最小。
4
鏈式思考提示（Chain-of-Thought prompting）對於減輕Claude Haiku的刻板印象有效，而多智能體架構則能確保所有模型的一致性減輕。
5
研究定義了八種提示模板，以分析方言偏見在不同情境下表現的方式，並使用LLM作為評估者來評估結果的偏見程度。

對教育工作者的啟發

教育工作者應意識到LLM可能存在的語言偏見，並在設計基於AI的學習工具時，積極採用提示工程和多智能體架構等策略，以確保學習資源的公平性和包容性。此外，在評估學生的語言能力時，應避免過度依賴LLM，並結合人工評估，以減少潛在的偏見。開發者應持續改進模型，以減少刻板印象，並確保AI系統在教育領域的應用符合倫理標準。

原始文獻資訊

英文標題：: Analysis Of Linguistic Stereotypes in Single and Multi-Agent Generative AI Architectures
作者：: Martina Ullasci, Marco Rondina, Riccardo Coppola, Flavio Giobergia, Riccardo Bellanca, Gabriele Mancari Pasi, Luca Prato, Federico Spinoso, Silvia Tagliente
來源：: arXiv - Artificial Intelligence
AI 摘要模型：: ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。