OmniDrop:透過查詢引導實現全模態大語言模型的逐層 Token 修剪技術

arXiv - Artificial IntelligenceYeo Jeong Park, Hyemi Jang, Minseo Choi, Jongsun Lee, Jooyoung Choi, Yongkweon Jeon

提出一種無需訓練的逐層 Token 修剪框架,透過文本查詢引導與時間多樣性評分,優化全模態模型的推理效率。

AI 幫你先抓重點

AI 重點 1

從「輸入端修剪」轉向「層級內修剪」的策略轉變

滑鼠懸停看 AI 判斷理由
傳統方法在輸入端就刪除資訊,容易導致語義遺失;此研究證明在模型深層才進行激進修剪,能讓模型在處理複雜音視訊資訊時,先在淺層完成充分的資訊融合,提升理解品質。
AI 重點 2

引入「文本查詢引導」實現任務自適應的修剪

滑鼠懸停看 AI 判斷理由
這改變了以往依賴模態相似度的靜態修剪方式,讓模型能根據當前任務的需求(由文本指令決定)來決定哪些資訊重要,實現了更具動態性與任務相關性的資訊處理。

核心研究發現

  1. 1

    OmniDrop 透過在 LLM 解碼器層內進行逐層修剪,而非僅在輸入層修剪,有效保留了早期層級的模態融合資訊。

  2. 2

    實驗結果顯示,OmniDrop 在多項音視訊基準測試中表現優異,性能較基準模型提升最高達 3.58 分。

  3. 3

    該技術能顯著提升運算效率,減少預填充延遲(prefill latency)最高達 40%,並降低記憶體使用量達 14.7%。

對教育工作者的啟發

對於開發「智慧化數位學習環境」的開發者而言,此技術提供了在行動裝置或低算力設備上運行高階音視訊 AI 的可能性。例如,在開發需要即時語音與影像辨識的輔助學習工具(如:AI 語音教學助手或實驗操作引導系統)時,利用此類技術可大幅降低硬體成本並提升反應速度,讓學生在低延遲的環境下獲得更流暢的互動體驗,進而支持更自然的自主學習與實作練習。

原始文獻資訊

英文標題:
OmniDrop: Layer-wise Token Pruning for Omni-modal LLMs via Query-Guidance
作者:
Yeo Jeong Park, Hyemi Jang, Minseo Choi, Jongsun Lee, Jooyoung Choi, Yongkweon Jeon
來源:
arXiv - Artificial Intelligence
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。