大型語言模型道德判斷的脆弱性

arXiv - Human-Computer InteractionTom van Nuenen, Pratik S. Sachdeva2026年3月9日

建立干擾框架測試LLM道德判斷的穩定性與可操控性，發現觀點轉換最易導致判斷波動

AI 幫你先抓重點

AI 重點 1

LLM道德判斷易受敘事視角影響，觀點轉換導致判斷翻轉率高達24.3%，遠高於表面噪音。

滑鼠懸停看 AI 判斷理由

此發現揭示了LLM道德判斷的脆弱性，並非基於穩固的道德原則，而是容易受到呈現方式的干擾。這對於教育科技開發者至關重要，因為AI輔助的道德討論若未控制敘事視角，可能引導學生產生偏誤的道德判斷，影響其價值觀的形成。

AI 重點 2

評估協議（提示方式、順序等）對LLM道德判斷結果影響巨大，不同協議間一致性僅67.6%。

滑鼠懸停看 AI 判斷理由

這意味著LLM的道德判斷並非客觀，而是高度依賴於提問方式和情境設定。對於AI倫理研究者而言，這突顯了在評估LLM道德判斷時，標準化評估協議的重要性，避免因方法差異導致研究結果不可比。同時，也提醒教育者在設計AI輔助學習時，應考慮提示工程對學習成果的影響。

研究顯示LLM在道德判斷上對觀點變化極為敏感，提示教育工作者在設計AI輔助道德討論時需明確定義情境語氣，避免因語調差異導致判斷偏差；同時，選擇合適的提示順序與結構能顯著提升模型一致性，建議在課程中加入多角度提示實驗，以培養學生的批判性思維與元認知能力。

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。