基於 LLM 的流程建模助手人本評估:混合方法研究
arXiv - Human-Computer InteractionChantale Lauer, Peter Pfeiffer, Nijat Mehdiyev
本研究透過混合方法,評估了 LLM 驅動的 BPMN 建模助手,發現其可用性尚可,但信任度較低,尤其在可靠性方面。
AI 幫你先抓重點
AI 重點 1
信任度與可用性之間的矛盾。
滑鼠懸停看 AI 判斷理由
此研究強調了即使工具具有一定的可用性,使用者對 AI 系統的信任度仍然至關重要。在教育科技應用中,學生或教師若不信任系統,則不會積極使用,影響學習成效。這點對於設計未來教育 AI 系統具有重要參考價值。
AI 重點 2
LLM 需要更深入的提問以理解流程。
滑鼠懸停看 AI 判斷理由
這點突顯了 LLM 在理解複雜流程時的局限性,以及人機協作的重要性。在專題式學習 (PBL) 環境中,若 LLM 能夠更有效地引導學生思考,將能提升專案的品質和學生的學習成果。
核心研究發現
- 1
研究發現使用者對 LLM 建模助手的可用性評估尚可,平均 CUQ 分數為 67.2/100,但信任度明顯較低,平均為 48.8%。
- 2
可靠性被使用者視為最關鍵的擔憂,平均評分僅為 1.8/5,顯示使用者對 LLM 產出結果的穩定性存在疑慮。
- 3
研究揭示了 LLM 產出品質的問題,例如不精確的建模,以及使用者在提供提示時遇到的困難。
- 4
LLM 需要更深入地詢問使用者,以釐清流程細節,才能提供更準確的建模建議,避免誤解。
- 5
研究者提出了五種可能的應用場景,涵蓋領域專家支援到企業品質保證,突顯了 LLM 建模助手的潛力。
對教育工作者的啟發
在教育科技應用中,開發者不應僅僅關注 AI 系統的技術性能,更應重視使用者體驗和信任度的建立。這需要透過人本評估,了解使用者真正的需求和痛點,並針對性地改進系統。此外,在專題式學習的環境中,可以考慮將 LLM 建模助手作為輔助工具,但需要確保其產出結果的準確性,並引導學生批判性思考。
原始文獻資訊
- 英文標題:
- Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts
- 作者:
- Chantale Lauer, Peter Pfeiffer, Nijat Mehdiyev
- 來源:
- arXiv - Human-Computer Interaction
- AI 摘要模型:
- ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。