OmniDrop：透過查詢引導實現全模態大語言模型的逐層 Token 修剪技術

arXiv - Artificial IntelligenceYeo Jeong Park, Hyemi Jang, Minseo Choi, Jongsun Lee, Jooyoung Choi, Yongkweon Jeon2026年5月16日

提出一種無需訓練的逐層 Token 修剪框架，透過文本查詢引導與時間多樣性評分，優化全模態模型的推理效率。

AI 幫你先抓重點

AI 重點 1

從「輸入端修剪」轉向「層級內修剪」的策略轉變

滑鼠懸停看 AI 判斷理由

傳統方法在輸入端就刪除資訊，容易導致語義遺失；此研究證明在模型深層才進行激進修剪，能讓模型在處理複雜音視訊資訊時，先在淺層完成充分的資訊融合，提升理解品質。

AI 重點 2

引入「文本查詢引導」實現任務自適應的修剪

滑鼠懸停看 AI 判斷理由

這改變了以往依賴模態相似度的靜態修剪方式，讓模型能根據當前任務的需求（由文本指令決定）來決定哪些資訊重要，實現了更具動態性與任務相關性的資訊處理。

核心研究發現

1
OmniDrop 透過在 LLM 解碼器層內進行逐層修剪，而非僅在輸入層修剪，有效保留了早期層級的模態融合資訊。
2
實驗結果顯示，OmniDrop 在多項音視訊基準測試中表現優異，性能較基準模型提升最高達 3.58 分。
3
該技術能顯著提升運算效率，減少預填充延遲（prefill latency）最高達 40%，並降低記憶體使用量達 14.7%。

對教育工作者的啟發

對於開發「智慧化數位學習環境」的開發者而言，此技術提供了在行動裝置或低算力設備上運行高階音視訊 AI 的可能性。例如，在開發需要即時語音與影像辨識的輔助學習工具（如：AI 語音教學助手或實驗操作引導系統）時，利用此類技術可大幅降低硬體成本並提升反應速度，讓學生在低延遲的環境下獲得更流暢的互動體驗，進而支持更自然的自主學習與實作練習。

原始文獻資訊

英文標題：: OmniDrop: Layer-wise Token Pruning for Omni-modal LLMs via Query-Guidance
作者：: Yeo Jeong Park, Hyemi Jang, Minseo Choi, Jongsun Lee, Jooyoung Choi, Yongkweon Jeon
來源：: arXiv - Artificial Intelligence
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。