利用多模態大型語言模型推薦可用性改進方案

arXiv - Human-Computer InteractionSebastian Lubos, Alexander Felfernig, Damian Garber, Viet-Man Le, Manuel Henrich

本研究提出一種利用多模態大型語言模型,透過螢幕錄影自動識別可用性問題並提供改進建議的新方法。

AI 幫你先抓重點

AI 重點 1

從「視覺+文本」雙模態輸入實現自動化評估

滑鼠懸停看 AI 判斷理由
傳統可用性測試極度依賴專家經驗與大量資源,透過 MLLM 整合影像與文字資訊,能大幅降低評估門檻,讓資源有限的小型團隊也能進行高品質的 UI/UX 優化。
AI 重點 2

將可用性原則(Heuristics)與 AI 生成內容結合

滑鼠懸停看 AI 判斷理由
這不僅是單純的錯誤偵測,而是將學術性的設計原則轉化為可執行的工程建議,實現了從理論框架到實務開發流程的自動化銜接。

核心研究發現

  1. 1

    該方法能結合有限的應用上下文與使用者互動的螢幕錄影,自動識別並描述基於 Nielsen 可用性啟發式原則的問題。

  2. 2

    模型不僅能指出問題,還能提供對應的解釋與改進建議,並根據問題嚴重程度進行自動排序以降低開發者負擔。

  3. 3

    透過軟體工程師參與的使用者研究證實,該模型產生的高排名建議具有實務上的參考價值與潛力。

對教育工作者的啟發

對於開發教育科技產品(EdTech)的團隊而言,此技術可應用於自動化檢測學習平台或教學 App 的介面問題。例如,在開發自主學習系統時,可利用此技術快速識別學生在操作介面時可能遇到的認知負荷過重或導覽困難,並根據嚴重程度優先修復,從而確保學習者能專注於學習內容而非操作障礙,提升數位學習環境的可用性。

原始文獻資訊

英文標題:
Recommending Usability Improvements with Multimodal Large Language Models
作者:
Sebastian Lubos, Alexander Felfernig, Damian Garber, Viet-Man Le, Manuel Henrich
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。