ai assessment social intelligence llm human-computer interaction

RoleConflictBench：評估大型語言模型情境敏感度的角色衝突基準測試

arXiv - Computers and SocietyJisu Shin, Hoyun Song, Juhyun Oh, Changgeon Ko, Eunsu Kim, Chani Jung, Alice Oh2026年4月20日

研究提出 RoleConflictBench 基準測試，發現 LLM 在面對角色衝突時，傾向於遵循預設角色偏好而非根據動態情境做出決策。

AI 幫你先抓重點

AI 重點 1

LLM 在社會決策中存在「角色偏好優先」而非「情境優先」的缺陷。

滑鼠懸停看 AI 判斷理由

這揭示了當前 AI 在處理複雜社會互動時的侷限性。模型並非真正理解情境的權重，而是依賴統計上的角色刻板印象，這對於開發需要高度情境感知能力的 AI 代理人（AI Agents）具有重要的警示意義。

AI 重點 2

情境敏感度（Contextual Sensitivity）是衡量 AI 社會智能的關鍵指標。

滑鼠懸停看 AI 判斷理由

過去評估 AI 多著重於知識或邏輯，但本研究強調了在社會動態中，能否根據變動的環境（如緊急程度）調整行為，才是判斷 AI 是否具備類人決策能力的關鍵維度。

核心研究發現

1
研究開發了 RoleConflictBench，包含超過 13,000 個跨越 5 個社會領域、65 種角色的真實情境場景。
2
透過系統性改變競爭情境的「緊急程度」作為決策約束，實現了對主觀角色衝突領域的客觀量化評估。
3
對 10 種大型語言模型的分析顯示，模型決策與情境動態線索嚴重脫節，表現出顯著的偏差。
4
模型決策主要受限於其學習到的特定社會角色偏好，而非根據當下的情境需求進行靈活調整。

對教育工作者的啟發

對於教育科技開發者而言，若要設計用於模擬社會互動、角色扮演（Role-play）或衝突解決教學的 AI 工具，必須意識到模型可能存在「角色刻板印象」的風險。建議在設計教學情境時，應特別檢驗 AI 是否能根據教學目標（如緊急程度或道德權重）靈活調整回應，而非僅僅扮演單一角色。在開發 AI 導師或社會化學習環境時，應建立更強的情境約束機制，以確保 AI 的決策邏輯能符合教學情境的動態需求，而非受限於預訓練數據中的社會偏見。

原始文獻資訊

英文標題：: RoleConflictBench: A Benchmark of Role Conflict Scenarios for Evaluating LLMs' Contextual Sensitivity
作者：: Jisu Shin, Hoyun Song, Juhyun Oh, Changgeon Ko, Eunsu Kim, Chani Jung, Alice Oh
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。