超越指標:使用者評估 AI 聊天助理

arXiv - Human-Computer InteractionMoiz Sadiq Awan, Muhammad Haris Noor, Muhammad Salman Munaf

本研究透過跨平台調查,發現使用者對 AI 聊天助理的滿意度與傳統指標並無直接關聯,且使用者傾向於多平台並用,並重視不同平台的特色。

AI 幫你先抓重點

AI 重點 1

使用者滿意度與基準測試結果並無直接關聯。

滑鼠懸停看 AI 判斷理由
這表示單純依賴基準測試來評估 AI 聊天助理的效能,無法反映真實的使用者體驗,教育工作者在評估 AI 工具時應重視使用者回饋。
AI 重點 2

使用者傾向於多平台並用,且轉換成本低。

滑鼠懸停看 AI 判斷理由
這意味著教育科技的開發者不應過度強調生態系統的封閉性,而應注重提升自身平台的獨特價值,以吸引並留住使用者,同時也提醒使用者應善用不同平台的優勢。

核心研究發現

  1. 1

    儘管資金、團隊規模和基準測試效能差異巨大,Claude、ChatGPT 和 DeepSeek 這三大平台的使用者滿意度並無顯著差異。

  2. 2

    超過 80% 的使用者同時使用兩個或更多平台,顯示使用者將這些工具視為可互換的資源,而非具有黏性的生態系統。

  3. 3

    不同平台吸引使用者的原因各不相同:ChatGPT 因介面、Claude 因回答品質、DeepSeek 因口耳相傳、Grok 因內容政策,暗示專精而非通用性主導市場競爭。

  4. 4

    幻覺和內容過濾是所有平台使用者最常見的困擾。

  5. 5

    研究結果為 AI 聊天助理市場提供早期經驗數據,表明市場發展趨勢更偏向多元競爭,而非贏家全拿的局面。

對教育工作者的啟發

教育工作者在導入 AI 聊天助理時,不應僅依賴技術規格或基準測試,更應重視使用者體驗和實際應用效果。同時,應鼓勵學生和教師探索不同平台的功能,並根據自身需求選擇最適合的工具。此外,在課程設計中,應納入對 AI 產出內容的批判性評估,以培養學生的資訊素養。內容過濾和幻覺問題也提醒教育者在使用 AI 工具時,應注意保護學生隱私和避免誤導性資訊。

原始文獻資訊

英文標題:
Beyond Benchmarks: How Users Evaluate AI Chat Assistants
作者:
Moiz Sadiq Awan, Muhammad Haris Noor, Muhammad Salman Munaf
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。