ai edtech srl learning design assessment

超越指標：使用者評估 AI 聊天助理

arXiv - Human-Computer InteractionMoiz Sadiq Awan, Muhammad Haris Noor, Muhammad Salman Munaf2026年3月27日

本研究透過跨平台調查，發現使用者對 AI 聊天助理的滿意度與傳統指標並無直接關聯，且使用者傾向於多平台並用，並重視不同平台的特色。

AI 幫你先抓重點

AI 重點 1

使用者滿意度與基準測試結果並無直接關聯。

滑鼠懸停看 AI 判斷理由

這表示單純依賴基準測試來評估 AI 聊天助理的效能，無法反映真實的使用者體驗，教育工作者在評估 AI 工具時應重視使用者回饋。

AI 重點 2

使用者傾向於多平台並用，且轉換成本低。

滑鼠懸停看 AI 判斷理由

這意味著教育科技的開發者不應過度強調生態系統的封閉性，而應注重提升自身平台的獨特價值，以吸引並留住使用者，同時也提醒使用者應善用不同平台的優勢。

核心研究發現

1
儘管資金、團隊規模和基準測試效能差異巨大，Claude、ChatGPT 和 DeepSeek 這三大平台的使用者滿意度並無顯著差異。
2
超過 80% 的使用者同時使用兩個或更多平台，顯示使用者將這些工具視為可互換的資源，而非具有黏性的生態系統。
3
不同平台吸引使用者的原因各不相同：ChatGPT 因介面、Claude 因回答品質、DeepSeek 因口耳相傳、Grok 因內容政策，暗示專精而非通用性主導市場競爭。
4
幻覺和內容過濾是所有平台使用者最常見的困擾。
5
研究結果為 AI 聊天助理市場提供早期經驗數據，表明市場發展趨勢更偏向多元競爭，而非贏家全拿的局面。

對教育工作者的啟發

教育工作者在導入 AI 聊天助理時，不應僅依賴技術規格或基準測試，更應重視使用者體驗和實際應用效果。同時，應鼓勵學生和教師探索不同平台的功能，並根據自身需求選擇最適合的工具。此外，在課程設計中，應納入對 AI 產出內容的批判性評估，以培養學生的資訊素養。內容過濾和幻覺問題也提醒教育者在使用 AI 工具時，應注意保護學生隱私和避免誤導性資訊。

原始文獻資訊

英文標題：: Beyond Benchmarks: How Users Evaluate AI Chat Assistants
作者：: Moiz Sadiq Awan, Muhammad Haris Noor, Muhammad Salman Munaf
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。