AI 能猜你知識?LLM 在通訊日誌中的表現比較

arXiv - Human-Computer InteractionKo Watanabe, Shoya Ishimaru

Gemini 2.5 Flash 在 Slack 日誌中零樣本估算員工知識誤差最低,顯示 LLM 可自動化專業映射,但仍需隱私與結構化改進。

AI 幫你先抓重點

AI 重點 1

LLM 零樣本估算員工知識可行,但需考慮隱私與資料結構化

滑鼠懸停看 AI 判斷理由
此洞察指出雖然 LLM 能從通訊日誌推斷專業知識,但實際應用必須先解決資料隱私合規問題,並將日誌結構化以提升模型解釋性與準確度,否則可能造成資訊洩漏或誤判。
AI 重點 2

訊息量與估算準確度弱相關,提示模型需學習語境而非單純文字量

滑鼠懸停看 AI 判斷理由
這表明單純收集更多聊天文字並不能保證更好推估,模型必須捕捉語境線索與主題關聯,這對未來研究與實務設計提出了更高層次的特徵工程需求。

核心研究發現

  1. 1

    Gemini 2.5 Flash 的 MAE 21.13%,最低於其他七個模型。

  2. 2

    GPT 系列模型的估算誤差顯著較大,表明其在此任務上表現不佳。

  3. 3

    訊息量對估算準確度影響微弱,僅弱相關,說明文字量並非關鍵因素。

對教育工作者的啟發

對於組織內部知識管理者而言,本文證實 LLM 可透過日誌自動映射員工專業領域,提供快速識別專家與協作需求的工具。然而,實務部署前必須先確保資料隱私合規,並將日誌結構化(如標記主題、技能關鍵字)以提升模型準確度。建議先在小規模試點中,結合人工審核校正模型輸出,逐步擴大覆蓋範圍;同時,開發者可探索將 LLM 與知識圖譜結合,讓模型在推估時參考已知的技能關係,進一步提升精度與可解釋性。

原始文獻資訊

英文標題:
Can AI Guess What You Know? Performance Comparison of Large Language Models for Human Domain Knowledge Estimation From Communication Logs
作者:
Ko Watanabe, Shoya Ishimaru
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。