OmniDrop:透過查詢引導實現全模態大語言模型的逐層 Token 修剪技術
arXiv - Artificial IntelligenceYeo Jeong Park, Hyemi Jang, Minseo Choi, Jongsun Lee, Jooyoung Choi, Yongkweon Jeon
提出一種無需訓練的逐層 Token 修剪框架,透過文本查詢引導與時間多樣性評分,優化全模態模型的推理效率。
AI 幫你先抓重點
AI 重點 1
從「輸入端修剪」轉向「層級內修剪」的策略轉變
滑鼠懸停看 AI 判斷理由
傳統方法在輸入端就刪除資訊,容易導致語義遺失;此研究證明在模型深層才進行激進修剪,能讓模型在處理複雜音視訊資訊時,先在淺層完成充分的資訊融合,提升理解品質。
AI 重點 2
引入「文本查詢引導」實現任務自適應的修剪
滑鼠懸停看 AI 判斷理由
這改變了以往依賴模態相似度的靜態修剪方式,讓模型能根據當前任務的需求(由文本指令決定)來決定哪些資訊重要,實現了更具動態性與任務相關性的資訊處理。
核心研究發現
- 1
OmniDrop 透過在 LLM 解碼器層內進行逐層修剪,而非僅在輸入層修剪,有效保留了早期層級的模態融合資訊。
- 2
實驗結果顯示,OmniDrop 在多項音視訊基準測試中表現優異,性能較基準模型提升最高達 3.58 分。
- 3
該技術能顯著提升運算效率,減少預填充延遲(prefill latency)最高達 40%,並降低記憶體使用量達 14.7%。
對教育工作者的啟發
對於開發「智慧化數位學習環境」的開發者而言,此技術提供了在行動裝置或低算力設備上運行高階音視訊 AI 的可能性。例如,在開發需要即時語音與影像辨識的輔助學習工具(如:AI 語音教學助手或實驗操作引導系統)時,利用此類技術可大幅降低硬體成本並提升反應速度,讓學生在低延遲的環境下獲得更流暢的互動體驗,進而支持更自然的自主學習與實作練習。
原始文獻資訊
- 英文標題:
- OmniDrop: Layer-wise Token Pruning for Omni-modal LLMs via Query-Guidance
- 作者:
- Yeo Jeong Park, Hyemi Jang, Minseo Choi, Jongsun Lee, Jooyoung Choi, Yongkweon Jeon
- 來源:
- arXiv - Artificial Intelligence
- AI 摘要模型:
- /models/gemma-4-26B-A4B-it
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。