ai assessment human-computer interaction research methodology llm

信任悖論：計算機科學研究人員如何使用 LLM 排行榜

arXiv - Human-Computer InteractionPouya Sadeghi, Anamaria Crisan, Jimmy Lin2026年5月29日

研究發現研究人員對 LLM 排行榜抱持「務實的懷疑」，雖不信任其可靠性，卻仍將其作為決策參考。

AI 幫你先抓重點

AI 重點 1

學科文化（Disciplinary Culture）是影響技術評估行為的核心變量

滑鼠懸停看 AI 判斷理由

這說明了技術工具的採用不單是技術性能問題，更受到學術社群規範與評價標準的制約。理解這一點有助於開發者在不同學科領域推廣 AI 工具時，採取更具針對性的溝通策略。

AI 重點 2

從「靜態基準」轉向「動態與透明化評估」的趨勢

滑鼠懸停看 AI 判斷理由

研究指出研究者渴望更具任務針對性、包含成本資訊及人類投票機制的評估方式，這預示了未來 AI 評估工具必須從單純的數據比拼，轉向更全面、透明且具備實務情境的設計。

核心研究發現

1
研究人員呈現「務實的懷疑」悖論：儘管深知排行榜在可靠性與穩健性上有缺陷，仍會將其作為初步決策的參考工具。
2
同儕網絡而非排行榜是模型選擇的主要機制，且研究者更偏好基於人類投票的動態排行榜，而非靜態基準測試。
3
學科文化顯著影響排行榜的影響力：NLP 研究者面臨強烈的 SOTA 比較壓力，而 HCI 與系統研究者則幾乎不受影響。
4
成本透明度是研究人員最迫切的需求，多數受訪者認為目前的排行榜缺乏整合模型使用成本的資訊。

對教育工作者的啟發

對於開發教育科技工具或評估系統的設計者而言，此研究提供了重要啟發：首先，評估工具不應僅追求單一分數，應提供「任務特定」的細分數據，以滿足不同專業領域的需求；其次，應整合「成本與資源消耗」資訊，這對教學實務中的資源配置至關重要；最後，應考慮引入「人類評估」機制（如同儕評分），以彌補自動化基準測試在理解複雜任務（如生成式學習任務）時的不足，建立更具信任感的評估生態系統。

原始文獻資訊

英文標題：: The Trust Paradox: How CS Researchers Engage LLM Leaderboards
作者：: Pouya Sadeghi, Anamaria Crisan, Jimmy Lin
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。