從準確度到準備度:人機決策的評量指標與基準

arXiv - Human-Computer InteractionMin Hun Lee

提出以團隊準備度為核心的人機決策評估框架,涵蓋結果、依賴行為、安全信號與學習進程,並以互動痕跡量化校準與治理。

AI 幫你先抓重點

AI 重點 1

以互動痕跡為基礎的評估方法

滑鼠懸停看 AI 判斷理由
此方法直接捕捉實時決策動態,避免自報信任的不可靠性,能夠在部署環境中即時量化人機團隊的校準與錯誤恢復。
AI 重點 2

四維評量分類(結果、依賴行為、安全信號、學習進程)

滑鼠懸停看 AI 判斷理由
提供全面覆蓋團隊準備度的指標,協助設計者針對特定缺陷(如過度或不足依賴)制定針對性干預。
AI 重點 3

連結 Understand‑Control‑Improve 生命週期

滑鼠懸停看 AI 判斷理由
將評估與人機協作的導入、控制與改進階段對齊,確保指標能驅動持續的系統優化與治理。

核心研究發現

  1. 1

    以團隊準備度為核心,提出四維評量分類:結果、依賴行為、安全信號、學習進程。

  2. 2

    透過互動痕跡而非模型屬性或自報信任,能量化人機團隊的校準與錯誤恢復。

  3. 3

    評估指標與 Understand‑Control‑Improve 生命週期相結合,支持人機協作的持續改進。

  4. 4

    研究顯示過度依賴或不足依賴是失敗主因,框架可針對這些行為進行量化與干預。

  5. 5

    建立可比的基準與累積研究,促進更安全、更負責任的人機決策系統。

對教育工作者的啟發

教育科技工作者可利用互動日誌監測教師與 AI 的依賴校準,設計針對性培訓模組提升安全信號辨識;在課程設計中加入學習進程追蹤,透過迭代評估調整協作策略,確保決策過程更安全、負責任。

原始文獻資訊

英文標題:
From Accuracy to Readiness: Metrics and Benchmarks for Human-AI Decision-Making
作者:
Min Hun Lee
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。