大型語言模型的社會政策:GPT、Claude、DeepSeek 與 Grok 在西、德兩國的預算分配研究

arXiv - Computers and SocietyClaudia Benavides Cantos, Eduardo C. Garrido-Merch\'an

研究發現四款主流 LLM 在分配社會預算時皆存在系統性偏差,與真實經濟結構顯著不符。

AI 幫你先抓重點

AI 重點 1

警惕 AI 內建的「隱性社會政策」偏見

滑鼠懸停看 AI 判斷理由
這項發現揭示了 LLM 並非中立的資訊檢索工具,而是帶有預設價值觀的決策模擬器。當我們將 AI 引入公共政策或社會科學研究時,必須意識到其產出的數據可能反映了訓練數據中的系統性偏差,而非客觀事實。
AI 重點 2

區分 AI 的「資訊提供」與「專家決策」功能

滑鼠懸停看 AI 判斷理由
研究結論強調 AI 僅能輔助而非取代專家審議。這對於教育者與決策者至關重要,提醒我們在利用 AI 進行複雜問題解決(如 PBL 中的政策模擬)時,應將其定位為討論的起點,而非最終的權威答案。

核心研究發現

  1. 1

    所有模型皆展現出與真實歐洲支出結構不同的隱性社會政策,例如將退休金分配比例低估近三倍。

  2. 2

    模型在住房與就業方面的預算分配明顯過高,分別高出真實比例約四倍與兩倍。

  3. 3

    模型間的主要差異不在於地緣政治偏見,而在於預算分配的集中度與分散度之對比。

  4. 4

    在模型對國家背景的敏感度方面,僅有 Claude 展現出實質性的國家情境感知能力。

對教育工作者的啟發

在設計涉及社會科學或批判性思考的專題式學習(PBL)課程時,教師可利用此研究作為教材,引導學生進行「AI 偏見檢驗」實驗。具體建議:1. 設計任務讓學生比較 AI 生成的預算分配與真實數據,培養學生的數據素養與批判性思維;2. 討論 AI 如何形塑對社會議題的認知,學習辨識演算法中的隱性價值觀;3. 強調在利用 AI 進行複雜決策模擬時,必須結合多方專家意見與實證數據,避免盲目信任 AI 的輸出。

原始文獻資訊

英文標題:
Social Policy of Large Language Models: How GPT, Claude, DeepSeek and Grok Allocate Social Budgets in Spain and Germany
作者:
Claudia Benavides Cantos, Eduardo C. Garrido-Merch\'an
來源:
arXiv - Computers and Society
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。