近日,我校计算机学院(软件学院)、人工智能学院段智议研究员课题组在视觉语言模型(VLMs)安全防御研究方面取得新进展,相关论文 ”SafeLogo: Turning Your Logos into Jailbreak Shields via Micro-Regional Adversarial Training” 被CVPR 2026 (IEEE/CVF Conference on Computer Vision and Pattern Recognition) 会议录用。CVPR是计算机视觉与模式识别领域公认的国际顶级会议,是中国计算机学会(CCF)推荐的A类会议,是国际CSRankings列表会议。段智议研究员为第一作者,2025级硕士研究生张潇月为第二作者,满天星研究员为通讯作者,内蒙古大学为论文第一完成单位。
论文聚焦视觉语言模型(VLMs)愈发容易受到越狱攻击的影响——这类攻击通过对抗性提示的微妙操控绕过模型的安全对齐机制。越狱攻击的多样性与适应性要求防御机制具备强大的泛化能力。然而,对大规模VLMs进行微调计算成本高昂,且引入过多的视觉或文本防御提示会损害图像真实性与模型可用性。论文提出SafeLogo,该方法通过微区域对抗训练,将徽标尺寸的视觉提示调优为抵御多种越狱攻击的通用防护盾。我们首次将最小-最大对抗优化融入视觉防御提示生成过程:在外循环中,SafeLogo将紧支撑的有界扰动注入极小的图像区域(像素覆盖范围),有效兼顾视觉保真度与语义一致性;同时,为克服现有防御局限于单一攻击方向或固定良性监督的缺陷,内循环从多种越狱攻击中动态生成并筛选出最强攻击策略。在LLaVA-1.5-13B、MiniGPT-4及Qwen3-VL上的大量实验表明,SafeLogo显著降低了MM-SafetyBench、VLGuard和FigStep上的越狱成功率,同时在MM-Vet和MME基准上保持了良性性能。

段智议研究员2024年入选我校“骏马计划”,研究方向包括多模态信息处理,智慧教育,大模型安全。主持国家自然科学基金项目2项,省部级项目2项。在AAAI、CVPR、WWW等CCF A类国际顶级学术会议,以及KBS、ESWA、TITS等中科院一区Top期刊发表学术论文20余篇。该项工作得到了国家自然科学基金,内蒙古自然科学基金,内蒙古“英才兴蒙”本级人才支持计划,内蒙古大学“骏马计划”高层次引进人才科研启动项目等项目的支持。
供稿:计算机学院(软件学院) 编辑:武涛 审核:李文娟 终审:阿茹娜