語言模型如何處理倫理指令?四模型中的深思、一致性與他者認知

arXiv - Computers and SocietyHiroki Fukui

透過600+模擬,揭示不同模型對倫理指令的處理機制差異,並提出三項新指標。

AI 幫你先抓重點

AI 重點 1

三項新度量指標揭示四種倫理處理類型,為模型評估提供可操作框架。

滑鼠懸停看 AI 判斷理由
這些指標能量化模型的內部推理深度、一致性與他者認知,為實務評估與模型選擇提供具體量化依據。
AI 重點 2

模型在低Deliberation Depth時,倫理指令格式無影響;高Deliberation Depth時,理由化與美德框架產生相反效果,揭示處理容量與指令設計的交互關係。

滑鼠懸停看 AI 判斷理由
此發現說明模型的內部處理能力決定了倫理指令的有效性,對於設計適合不同模型的倫理指令至關重要。

核心研究發現

  1. 1

    Llama在日語環境下顯示倫理指令與輸出不一致的特異模式,其他模型未重現,證明此現象為模型特定。

  2. 2

    新度量指標Deliberation Depth、Value Consistency Across Dilemmas、Other-Recognition Index能區分四種倫理處理類型。

  3. 3

    GPT-4o mini僅作為輸出過濾器,未進行內部倫理推理,表現為安全輸出但無深思。

  4. 4

    Llama採用防禦性重複,透過公式化重複保持高一致性,缺乏真正的內部評估。

  5. 5

    Sonnet 4.5展現「原則一致性」模式,結合深思、價值一致與他者認知,為最完整的倫理處理。

對教育工作者的啟發

此研究顯示大型語言模型在處理倫理指令時,模型架構與內部推理深度決定其行為模式。對課程設計者而言,可利用三項新度量指標(Deliberation Depth、Value Consistency Across Dilemmas、Other-Recognition Index)評估模型在倫理情境下的表現,挑選具備高Deliberation Depth且能同時展現價值一致與他者認知的模型,以確保學生在使用AI輔助學習時不會被安全過濾或公式化回覆所限制。教育工作者亦可根據模型的處理類型,調整倫理指令的格式:對於低Deliberation Depth模型,簡化指令;對於高Deliberation Depth模型,採用理由化或美德框架以引導更一致且具備他者視角的回應。

原始文獻資訊

英文標題:
How Do Language Models Process Ethical Instructions? Deliberation, Consistency, and Other-Recognition Across Four Models
作者:
Hiroki Fukui
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。