RoleConflictBench:評估大型語言模型情境敏感度的角色衝突基準測試

arXiv - Computers and SocietyJisu Shin, Hoyun Song, Juhyun Oh, Changgeon Ko, Eunsu Kim, Chani Jung, Alice Oh

研究提出 RoleConflictBench 基準測試,發現 LLM 在面對角色衝突時,傾向於遵循預設角色偏好而非根據動態情境做出決策。

AI 幫你先抓重點

AI 重點 1

LLM 在社會決策中存在「角色偏好優先」而非「情境優先」的缺陷。

滑鼠懸停看 AI 判斷理由
這揭示了當前 AI 在處理複雜社會互動時的侷限性。模型並非真正理解情境的權重,而是依賴統計上的角色刻板印象,這對於開發需要高度情境感知能力的 AI 代理人(AI Agents)具有重要的警示意義。
AI 重點 2

情境敏感度(Contextual Sensitivity)是衡量 AI 社會智能的關鍵指標。

滑鼠懸停看 AI 判斷理由
過去評估 AI 多著重於知識或邏輯,但本研究強調了在社會動態中,能否根據變動的環境(如緊急程度)調整行為,才是判斷 AI 是否具備類人決策能力的關鍵維度。

核心研究發現

  1. 1

    研究開發了 RoleConflictBench,包含超過 13,000 個跨越 5 個社會領域、65 種角色的真實情境場景。

  2. 2

    透過系統性改變競爭情境的「緊急程度」作為決策約束,實現了對主觀角色衝突領域的客觀量化評估。

  3. 3

    對 10 種大型語言模型的分析顯示,模型決策與情境動態線索嚴重脫節,表現出顯著的偏差。

  4. 4

    模型決策主要受限於其學習到的特定社會角色偏好,而非根據當下的情境需求進行靈活調整。

對教育工作者的啟發

對於教育科技開發者而言,若要設計用於模擬社會互動、角色扮演(Role-play)或衝突解決教學的 AI 工具,必須意識到模型可能存在「角色刻板印象」的風險。建議在設計教學情境時,應特別檢驗 AI 是否能根據教學目標(如緊急程度或道德權重)靈活調整回應,而非僅僅扮演單一角色。在開發 AI 導師或社會化學習環境時,應建立更強的情境約束機制,以確保 AI 的決策邏輯能符合教學情境的動態需求,而非受限於預訓練數據中的社會偏見。

原始文獻資訊

英文標題:
RoleConflictBench: A Benchmark of Role Conflict Scenarios for Evaluating LLMs' Contextual Sensitivity
作者:
Jisu Shin, Hoyun Song, Juhyun Oh, Changgeon Ko, Eunsu Kim, Chani Jung, Alice Oh
來源:
arXiv - Computers and Society
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。