不等同的不確定性:不確定性粒度如何影響LLM輔助決策中的人類驗證

arXiv - Human-Computer InteractionMauricio Villavicencio, Sitong Pan, Qianwen Wang

研究顯示,LLM輸出中不同粒度的不確定性表達會改變使用者的信任與驗證行為,token級別提升同意度,relation級別降低自信並減少外部驗證。

AI 幫你先抓重點

AI 重點 1

token級別不確定性可能無意中促進對AI的過度依賴。

滑鼠懸停看 AI 判斷理由
因為在細粒度詞彙上顯示置信度,使用者更容易接受答案,降低批判性評估,對高風險領域尤其危險。
AI 重點 2

關係級別不確定性會抑制獨立驗證,提示需平衡不確定性提示。

滑鼠懸停看 AI 判斷理由
過度在推理步驟上標示不確定性會使使用者更信任AI,忽略外部資訊,設計者必須調整粒度以促進健康懷疑與驗證。

核心研究發現

  1. 1

    token級別的不確定性顯示會提升使用者對AI答案的同意度。

  2. 2

    輸出級別與關係級別的不確定性雖未提升同意度,但會降低使用者對自身答案的信心。

  3. 3

    關係級別的不確定性還會減少使用者進行外部驗證(如網路搜尋、查閱URL)的行為。

對教育工作者的啟發

對於設計LLM輔助學習或決策工具的教育工作者與產品設計師而言,本文提醒必須細緻考量不確定性呈現粒度。若想避免使用者過度依賴AI,建議在輸出層級提供簡潔的置信度指標,並避免在關係層級過度標示不確定性,以免抑制使用者主動搜尋與驗證。可透過分層提示(例如:關鍵推論步驟旁加小圖示)或在token級別僅顯示關鍵詞置信度,讓使用者在保持警覺的同時,仍能快速把握答案重點。

原始文獻資訊

英文標題:
Not All Uncertainty Is Equal: How Uncertainty Granularity Shapes Human Verification in LLM-Assisted Decision Making
作者:
Mauricio Villavicencio, Sitong Pan, Qianwen Wang
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。