ai edtech higher education learning design metacognition

語言模型如何處理倫理指令？四模型中的深思、一致性與他者認知

arXiv - Computers and SocietyHiroki Fukui2026年4月2日

透過600+模擬，揭示不同模型對倫理指令的處理機制差異，並提出三項新指標。

AI 幫你先抓重點

AI 重點 1

三項新度量指標揭示四種倫理處理類型，為模型評估提供可操作框架。

滑鼠懸停看 AI 判斷理由

這些指標能量化模型的內部推理深度、一致性與他者認知，為實務評估與模型選擇提供具體量化依據。

AI 重點 2

模型在低Deliberation Depth時，倫理指令格式無影響；高Deliberation Depth時，理由化與美德框架產生相反效果，揭示處理容量與指令設計的交互關係。

滑鼠懸停看 AI 判斷理由

此發現說明模型的內部處理能力決定了倫理指令的有效性，對於設計適合不同模型的倫理指令至關重要。

核心研究發現

1
Llama在日語環境下顯示倫理指令與輸出不一致的特異模式，其他模型未重現，證明此現象為模型特定。
2
新度量指標Deliberation Depth、Value Consistency Across Dilemmas、Other-Recognition Index能區分四種倫理處理類型。
3
GPT-4o mini僅作為輸出過濾器，未進行內部倫理推理，表現為安全輸出但無深思。
4
Llama採用防禦性重複，透過公式化重複保持高一致性，缺乏真正的內部評估。
5
Sonnet 4.5展現「原則一致性」模式，結合深思、價值一致與他者認知，為最完整的倫理處理。

對教育工作者的啟發

此研究顯示大型語言模型在處理倫理指令時，模型架構與內部推理深度決定其行為模式。對課程設計者而言，可利用三項新度量指標（Deliberation Depth、Value Consistency Across Dilemmas、Other-Recognition Index）評估模型在倫理情境下的表現，挑選具備高Deliberation Depth且能同時展現價值一致與他者認知的模型，以確保學生在使用AI輔助學習時不會被安全過濾或公式化回覆所限制。教育工作者亦可根據模型的處理類型，調整倫理指令的格式：對於低Deliberation Depth模型，簡化指令；對於高Deliberation Depth模型，採用理由化或美德框架以引導更一致且具備他者視角的回應。

原始文獻資訊

英文標題：: How Do Language Models Process Ethical Instructions? Deliberation, Consistency, and Other-Recognition Across Four Models
作者：: Hiroki Fukui
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。