分析大型語言模型對話式 AI 系統中引用文獻的呈現、內容與利用情況
arXiv - Human-Computer InteractionJianheng Ouyang, Arpit Narechania
本研究系統性分析了九種 AI 系統引用文獻的呈現方式與品質,發現系統間差異巨大且使用者互動率極低。
AI 幫你先抓重點
AI 重點 1
AI 引用文獻的「可靠性」與「呈現方式」存在高度不一致性。
滑鼠懸停看 AI 判斷理由
這提醒使用者不能盲目信任 AI 的回答,因為引用來源的品質與數量在不同模型間落差極大,這對於需要嚴謹學術證據的學習情境至關重要。
AI 重點 2
現有的 AI 介面設計未能有效促進使用者與參考資料的互動。
滑鼠懸停看 AI 判斷理由
即便 AI 提供了文獻,使用者卻鮮少點擊或查閱,這意味著目前的 UI/UX 設計無法有效建立信任感或支持深層的知識建構過程。
核心研究發現
- 1
不同 AI 系統在引用文獻的數量與品質上存在顯著差異,例如 ChatGPT 平均每則回覆提供 9.5 個引用且 CRAAP 品質分數較高。
- 2
文獻品質呈現分化,ChatGPT 的 CRAAP 分數達 15.48/20,而 Hunyuan-TurboS 僅為 11.65/20,顯示系統間可靠性不一。
- 3
初步使用者研究顯示,使用者極少與 AI 提供的引用文獻進行互動,且不同系統間的使用者行為模式亦有所不同。
對教育工作者的啟發
對於教育工作者與課程設計者而言,應引導學生培養「批判性 AI 素養」。在教學中,不應僅將 AI 作為答案來源,而應設計任務要求學生去驗證 AI 提供的引用文獻是否真實且具權威性。此外,開發者應優化 AI 介面,讓引用來源更易於閱讀與驗證,以支持自主學習者進行深度的知識檢索與知識建構,而非僅是被動接受 AI 生成的內容。
原始文獻資訊
- 英文標題:
- Analyzing the Presentation, Content, and Utilization of References in LLM-powered Conversational AI Systems
- 作者:
- Jianheng Ouyang, Arpit Narechania
- 來源:
- arXiv - Human-Computer Interaction
- AI 摘要模型:
- /models/gemma-4-26B-A4B-it
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。