[本站讯]近日,山东大学控制科学与工程学院丛润民教授团队在多模态大模型安全方面取得重要进展,针对多模态大模型在领域微调业务场景中面临的数据投毒后门风险,提出了一种面向多触发类型、多模型架构的无监督后门样本检测与清洗方法,为提升多模态大模型定制化部署过程中的安全性与可信性提供了关键技术支撑。相关成果以“TCAP: Tri-Component Attention Profiling for Unsupervised Backdoor Detection in MLLM Fine-Tuning”为题,被CCF A类、国际机器学习领域顶级会议International Conference on Machine Learning(ICML 2026)接收。论文第一作者为山东大学控制学院2023级本科生刘明祖。
多模态大模型能够同时处理图像、文本、文档等多源信息,正在逐步应用于视觉问答、图像理解、自动驾驶、具身智能和医学诊断等重要场景。然而,在实际部署中,模型往往需要基于用户提供的下游数据进行定制化微调,这使得训练数据成为潜在攻击入口。攻击者只需在少量样本中植入视觉或文本触发器,即可使模型在普通输入下表现正常,却在触发器出现时输出攻击者预设的目标结果。由于这类后门行为具有隐蔽性,常规性能测试难以及时发现,传统防御方法也常受限于干净参考数据、监督标签或特定触发形态,难以适应多样化多模态攻击。
针对上述问题,团队提出了一种从模型内部注意力分配机制理解多模态后门的新研究视角。不同于以往主要关注输入图像中的局部触发异常或视觉注意力坍缩,团队将多模态输入拆解为系统指令、视觉输入和用户文本三类功能组件,并系统分析模型在生成响应时对不同组件的注意力流向。研究发现,后门样本会打破正常样本中较为稳定的跨组件注意力分布,使部分注意力头在系统指令、视觉输入和用户文本之间出现异常重分配。团队将这一机制性特征概括为“注意力分配偏移”(Attention Allocation Divergence),并证明其可作为多模态大模型后门行为的重要内部信号。

TCAP注意力分配偏移现象示意图
基于这一发现,团队进一步提出三组件注意力画像方法TCAP(Tri-Component Attention Profiling)。该方法提取模型在系统指令、视觉输入和用户文本三类组件上的注意力分配,利用高斯混合模型识别触发敏感注意力头,并通过EM算法聚合判断投毒样本。实验表明,TCAP在多种主流多模态大模型、视觉语言任务和图像及文本触发攻击下均能显著降低攻击成功率,同时基本保持模型干净样本性能,展现出良好的跨模型、跨任务和跨触发类型鲁棒性。
该工作得到了国家自然科学基金项目的支持。控制学院教授丛润民为论文通讯作者,入选国家高层次青年人才计划,主要研究方向包括人工智能、计算机视觉、具身智能、大模型安全等。在TPAMI、IJCV、CVPR、ICML等CCF-A、IEEE/ACM Trans上发表论文130余篇,获省部级/学会科学技术奖4项、教学成果奖3项,IEEE SPS Best Paper Award、IEEE Chester W. Sall Memorial Award等论文奖励10项、CVPR/ECCV等国际竞赛冠军3项、亚军2项。