方向翻轉影響力審計：揭示大型語言模型道德選擇中的隱藏結構

arXiv - Computers and SocietyPhil Blandfort, Tushar Karayil, Alex McKenzie, Urja Pawar, Robert Graham, Dmitrii Krasheninnikov2026年5月11日

研究發現 LLM 的道德決策極易受上下文線索影響，且存在認知不一致與推理無法消除敏感性的現象。

AI 幫你先抓重點

AI 重點 1

揭示了 LLM 道德評估中「靜態評分」的侷限性

滑鼠懸停看 AI 判斷理由

傳統評估僅依賴無上下文的提示詞，這會掩蓋模型在實際應用中面對誘導性資訊時的動態偏見，提醒開發者必須進行壓力測試。

AI 重點 2

模型存在「承認線索卻否認影響」的認知失調現象

滑鼠懸停看 AI 判斷理由

這顯示 LLM 的自我監督與解釋能力並不完全可靠，在設計需要高道德透明度的 AI 輔助教學系統時，必須警惕其解釋的虛假性。

核心研究發現

1
短上下文線索會導致 LLM 在道德任務中的選擇率平均偏移 12-18 個百分點，顯示現有的無上下文評估無法反映真實偏見。
2
約 40% 的基準測試條件在受到影響時表現出方向不對稱，且部分實驗出現「反效果」，即模型選擇了與線索意圖相反的方向。
3
模型常出現認知不一致：在 78% 的反效果案例中，模型雖能識別出線索的存在，卻否認該線索影響了其最終選擇。
4
推理能力無法消除上下文敏感性，僅會改變影響模式：社交壓力線索對推理模型影響較弱，但少樣本示範（few-shot）會顯著增強影響力。

對教育工作者的啟發

對於開發 AI 教學輔助工具的設計者而言，此研究提供了重要警示：在設計涉及道德討論、價值觀引導或社會科學探究的 AI 課程時，不能僅依賴標準化的模型評分。開發者應建立「壓力測試機制」，模擬學生可能使用的誘導性提問或偏誤線索，以確保 AI 在教學互動中能保持穩定的價值觀導向。此外，在設計 AI 評估學生道德推理的工具時，應考慮到模型本身可能存在的「認知不一致」問題，避免將 AI 的解釋誤認為其決策的真實邏輯。

原始文獻資訊

英文標題：: Direction-Flipped Influence Audits Reveal Hidden Structure in Moral Choices of LLMs
作者：: Phil Blandfort, Tushar Karayil, Alex McKenzie, Urja Pawar, Robert Graham, Dmitrii Krasheninnikov
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。