[本站讯]近日,山东大学研究团队在多模态大模型高效推理领域取得相关成果。研究论文以“GridPrune: From ‘Where to Look’ to ‘What to Select’ in Visual Token Pruning for MLLMs”为题,发表于SCI期刊Neurocomputing(JCR Q1, 新锐二区TOP, IF=6.5)。其中,2022级公信班本科生段宇翔为论文第一作者,信息科学与工程学院副教授王鹏伟为论文通讯作者,山东大学为唯一作者单位。

多模态大模型在视觉问答、图像理解和复杂推理等任务中表现出强大的能力,但大量视觉token带来了显著的计算开销,限制其在各类场景中的实际应用。基于此,研究团队提出了一种无需额外训练的视觉token剪枝方法GridPrune。该方法从认知科学中获得启发,将视觉token剪枝过程由传统的“选择什么”(what to select)进一步扩展为“先看哪里、再选什么”(where to look→what to select)。具体而言,GridPrune首先根据文本指令对图像不同区域进行动态预算分配,然后在各区域内部结合文本相关性与视觉显著性选择token,从而缓解传统全局剪枝方法中存在的位置偏置、空间分配不均和保留token冗余等问题。实验结果表明,GridPrune在LLaVA-1.5、LLaVA-NeXT和Qwen2.5-VL等多种多模态大模型架构上均取得了良好效果。该成果为提升多模态大模型推理效率、推动其在实际场景中的轻量化部署提供了一种新的思路。

段宇翔所在的“行政管理+电子科学与技术”双学位项目由政治学与公共管理学院主管,政治学与公共管理学院、信息科学与工程学院、计算机科学与技术学院、网络空间安全学院四个学院联合培养。项目以学科交叉与融合为基础,通过新兴信息手段认识和研究公共管理的问题,致力于培养既懂管理又懂技术的高层次、复合型管理技术人才,是探索拔尖创新人才培养改革新范式的重要项目。