分析大型語言模型對話式 AI 系統中引用文獻的呈現、內容與利用情況

arXiv - Human-Computer InteractionJianheng Ouyang, Arpit Narechania

本研究系統性分析了九種 AI 系統引用文獻的呈現方式與品質,發現系統間差異巨大且使用者互動率極低。

AI 幫你先抓重點

AI 重點 1

AI 引用文獻的「可靠性」與「呈現方式」存在高度不一致性。

滑鼠懸停看 AI 判斷理由
這提醒使用者不能盲目信任 AI 的回答,因為引用來源的品質與數量在不同模型間落差極大,這對於需要嚴謹學術證據的學習情境至關重要。
AI 重點 2

現有的 AI 介面設計未能有效促進使用者與參考資料的互動。

滑鼠懸停看 AI 判斷理由
即便 AI 提供了文獻,使用者卻鮮少點擊或查閱,這意味著目前的 UI/UX 設計無法有效建立信任感或支持深層的知識建構過程。

核心研究發現

  1. 1

    不同 AI 系統在引用文獻的數量與品質上存在顯著差異,例如 ChatGPT 平均每則回覆提供 9.5 個引用且 CRAAP 品質分數較高。

  2. 2

    文獻品質呈現分化,ChatGPT 的 CRAAP 分數達 15.48/20,而 Hunyuan-TurboS 僅為 11.65/20,顯示系統間可靠性不一。

  3. 3

    初步使用者研究顯示,使用者極少與 AI 提供的引用文獻進行互動,且不同系統間的使用者行為模式亦有所不同。

對教育工作者的啟發

對於教育工作者與課程設計者而言,應引導學生培養「批判性 AI 素養」。在教學中,不應僅將 AI 作為答案來源,而應設計任務要求學生去驗證 AI 提供的引用文獻是否真實且具權威性。此外,開發者應優化 AI 介面,讓引用來源更易於閱讀與驗證,以支持自主學習者進行深度的知識檢索與知識建構,而非僅是被動接受 AI 生成的內容。

原始文獻資訊

英文標題:
Analyzing the Presentation, Content, and Utilization of References in LLM-powered Conversational AI Systems
作者:
Jianheng Ouyang, Arpit Narechania
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。