誰定義「最佳」？互動式用戶自訂LLM排行榜評估

arXiv - Computers and SocietyMinji Jung, Minjae Lee, Yejin Kim, Sarang Choi, Minsuk Kahng2026年4月24日

提出互動式視覺化工具，讓使用者自行設定評估優先級，改進LLM排行榜透明度與適用性

AI 幫你先抓重點

AI 重點 1

互動式視覺化可讓使用者自行調整評估權重，提升評估透明度與適用性。

滑鼠懸停看 AI 判斷理由

此功能讓使用者根據實際需求重新定義「最佳」模型，避免單一指標主導決策，促進更具情境化的模型選擇。

AI 重點 2

研究顯示，使用者參與評估設計可降低偏見並提升信任度。

滑鼠懸停看 AI 判斷理由

當使用者參與權重設定，評估結果更貼近實際應用場景，減少設計者偏見，提升決策者對排行榜的信任與接受度。

AI 重點 3

可視化工具揭示不同提示類型對模型排名的影響，促進對模型行為的深入理解。

滑鼠懸停看 AI 判斷理由

透過切片分析，研究者與實務者能辨識模型在特定任務上的強弱，進而調整部署策略。

教育科技開發者可利用此互動視覺化介面，讓教師或學習者自行設定評估指標，挑選符合課程目標的LLM模型；高等教育機構可在課程設計前評估多模型在不同提示類型下的表現，避免單一指標導致錯誤選擇；AI產品經理可透過此工具收集使用者偏好，調整模型部署策略。

英文標題：: Who Defines "Best"? Towards Interactive, User-Defined Evaluation of LLM Leaderboards
作者：: Minji Jung, Minjae Lee, Yejin Kim, Sarang Choi, Minsuk Kahng
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。