大型語言模型在角色扮演下的道德易感性與穩健性研究

arXiv - Computers and SocietyDavi Bastos Costa, Felippe Alves, Renato Vicente2026年5月15日

本研究探討 LLM 在角色扮演情境下道德判斷的變化，發現其道德穩健性受模型家族影響，而易感性則與預訓練有關。

AI 幫你先抓重點

AI 重點 1

區分「道德穩健性」與「道德易感性」對於理解 AI 價值觀至關重要。

滑鼠懸停看 AI 判斷理由

這項發現揭示了 AI 道德行為的兩個維度：一個是模型在不同角色切換時維持一致性的能力，另一個是模型對特定角色設定的反應程度。理解這兩者的差異，有助於開發者判斷 AI 的道德偏見是源於基礎知識（預訓練）還是對齊技術（後訓練）。

AI 重點 2

模型家族的後訓練技術是決定 AI 道德穩定性的關鍵因素。

滑鼠懸停看 AI 判斷理由

這意味著若要開發出在複雜社會互動中表現穩定的 AI，重點應放在強化對齊與後訓練階段，而非僅僅增加預訓練數據量。這對於設計具備社會化能力的教育 AI 代理人具有重要的工程指導意義。

核心研究發現

1
研究定義了道德穩健性（Robustness）與易感性（Susceptibility）兩項指標，並透過重複採樣與 Logit 方法進行量化評估。
2
道德穩健性在不同模型家族間差異極大，Claude 系列表現最為穩健，比 DeepSeek、Grok 與 Llama 高出約 30 倍。
3
道德穩健性主要由後訓練（Post-training）決定，而道德易感性的變異程度較小，且與模型家族無明顯關聯，顯示其主要由預訓練決定。

對教育工作者的啟發

對於開發教育 AI 的設計者而言，此研究提供了重要警示：當我們要求 AI 扮演特定角色（如「嚴厲的導師」或「鼓勵性的夥伴」）進行教學時，AI 的道德判斷可能會隨角色設定而劇烈波動。若要開發用於社會情緒學習（SEL）或價值觀討論的 AI 助手，應優先選擇「道德穩健性」較高的模型（如 Claude 系列），以確保 AI 在不同教學情境下能維持一致且穩定的價值觀引導，避免因角色切換導致不當的道德判斷，進而影響學生的價值觀形成。

原始文獻資訊

英文標題：: Moral Susceptibility and Robustness under Persona Role-Play in Large Language Models
作者：: Davi Bastos Costa, Felippe Alves, Renato Vicente
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。