SiMing-Bench:從臨床技能影片連續互動評估程序正確性

arXiv - Human-Computer InteractionXiyang Huang, Jiawei Lin, Keying Wu, Jiaxin Huang, Kailai Yang, Renxiong Wei, Cheng zeng, Jiayi Xiang, Ziyan Kuang, Min Peng, Qianqian Xie, Sophia Ananiadou

提出首個評估臨床技能影片中持續互動對程序正確性影響的基準,並發現現有多模態大型語言模型在此任務上表現不佳。

AI 幫你先抓重點

AI 重點 1

模型難以追蹤互動導致的程序狀態變化

滑鼠懸停看 AI 判斷理由
此洞察揭示了多模態模型在實際臨床情境中缺乏動態推理能力,提醒研究者需設計能捕捉時間序列變化的機制,否則即使事件識別正確亦無法保證程序正確性。
AI 重點 2

粗略全局評估會高估模型性能

滑鼠懸停看 AI 判斷理由
研究顯示即使整體相關度達標,模型在細節步驟上仍表現不佳,說明單一指標無法全面評估程序正確性,教育科技設計者應採用多層級評分以避免誤判。

核心研究發現

  1. 1

    SiMing-Bench 是首個針對臨床技能影片中持續互動更新程序狀態的評估基準,涵蓋 CPR、AED 操作與袋罩通氣等實際手術場景。

  2. 2

    SiMing-Score 數據集由醫師雙重標註,配合標準化步驟評分表,提供細粒度的程序正確性判斷。

  3. 3

    在多種開放與封閉源多模態大型語言模型上,模型與醫師判斷的整體協同一致性普遍偏低,顯示模型難以捕捉程序細節。

  4. 4

    即使整體程序級相關度看似可接受,模型在評估中間步驟時仍表現弱勢,證明粗略全局評估高估了模型的程序判斷能力。

對教育工作者的啟發

對臨床教育工作者而言,SiMing-Bench 提供了可直接應用於實習評估的細粒度評分框架。課程設計者可將步驟評分表嵌入模擬訓練,並利用雙重醫師標註作為學習反饋,提升學員對程序正確性的即時認知。AI 研發者則應聚焦於建構能夠追蹤互動導致的程序狀態變化的模型架構,例如加入時間序列注意力或狀態轉移網路,並在訓練資料中加入步驟對應的標註,以提升模型在細節判斷上的準確度。最後,教育科技平台可結合 SiMing-Bench 的評分指標,開發自動化評估工具,協助教師快速定位學員在程序中的薄弱環節,進而提供針對性指導。

原始文獻資訊

英文標題:
SiMing-Bench: Evaluating Procedural Correctness from Continuous Interactions in Clinical Skill Videos
作者:
Xiyang Huang, Jiawei Lin, Keying Wu, Jiaxin Huang, Kailai Yang, Renxiong Wei, Cheng zeng, Jiayi Xiang, Ziyan Kuang, Min Peng, Qianqian Xie, Sophia Ananiadou
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。