AsyncTLS:使用非同步雙層稀疏注意力提升生成式 LLM 推理效率

arXiv - Computation and LanguageYuxuan Hu, Jianchao Tan, Jiaqi Zhang, Wen Zan, Pingwei Sun, Yifan Lu, Yerui Sun, Yuchen Xie, Xunliang Cai, Jing Zhang

提出 AsyncTLS,結合粗粒度區塊過濾與細粒度 token 選擇,並使用非同步 KV 緩存卸載,實現 1.2x–10.0x 的算子加速與 1.3x–4.7x 的端到端吞吐量提升,且準確度與全注意力相近。

AI 幫你先抓重點

AI 重點 1

雙層稀疏注意力結合粗粒度區塊過濾與細粒度 token 選擇,平衡準確度與效率。

滑鼠懸停看 AI 判斷理由
此設計證明層次化注意力可在保持高準確度的同時,顯著降低計算複雜度,改變長上下文推理的可行性與實務部署方式。
AI 重點 2

非同步 KV 緩存卸載利用時間局部性,重疊傳輸與計算,減少記憶體瓶頸。

滑鼠懸停看 AI 判斷理由
展示了系統層面的創新優化,可直接應用於多種 LLM 架構,推動未來模型在資源受限環境中的高效運行。

核心研究發現

  1. 1

    AsyncTLS 在 Qwen3 和 GLM-4.7-Flash 上的推理準確度與全注意力相近,未顯著損失模型表現。

  2. 2

    實驗顯示 AsyncTLS 在 48k–96k 上下文長度下,算子速度提升 1.2x–10.0x。

  3. 3

    端到端吞吐量提升 1.3x–4.7x,顯著降低推理延遲與記憶體需求。

對教育工作者的啟發

對於需要在教育平台部署大語言模型的工程師,AsyncTLS 可在保持答題準確度的同時,顯著降低推理延遲與記憶體需求,適合實時互動教學與自適應學習系統。實務上可先在 48k-96k 上下文長度測試,並結合非同步 KV 卸載,快速提升服務效能。

原始文獻資訊

英文標題:
AsyncTLS: Efficient Generative LLM Inference with Asynchronous Two-level Sparse Attention
作者:
Yuxuan Hu, Jianchao Tan, Jiaqi Zhang, Wen Zan, Pingwei Sun, Yifan Lu, Yerui Sun, Yuchen Xie, Xunliang Cai, Jing Zhang
來源:
arXiv - Computation and Language
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。