头条 最新研究:隐蔽篡改图片可攻破聊天机器人安全限制来源:搜狐新闻 2026年07月02日 16:14 微信 微博 复制链接【CNMO科技消息】佛罗里达国际大学的研究团队近期公布了一项新发现。他们提出了一种技术,称为“JaiLIP”,这种技术可以在像素层级进行极难察觉的微小修改,以此绕开AI系统的安全防护,让聊天机器人说出本该被屏蔽的话语。根据CNMO的了解,这项研究显示,与常规的、需要利用复杂提示词的越狱方式不同,JaiLIP采用的方法更加隐蔽,它直接通过操纵图像的像素数值来干扰AI模型的判断。虽然这些改变对于人眼来说完全无法察觉,但在AI系统分析数学模式和像素数据时,它们会引发完全不同的结果。测试环节使用了BLIP-2这个多模态AI模型,该模型被设计成能够同时处理图像和文本信息。实验中,接受过JaiLIP调整处理的图像,明显增加了模型输出有风险或违规内容的可能性。对比以往的图像攻击手段,JaiLIP导致的有害内容产出量几乎增长了一倍。研究人员以一张红绿灯的照片为例作了阐释。这张照片表面看起来毫无问题,却足以让模型生成闯红灯的指示,并且还给出了如何规避相应处罚的建议。这类原本在系统设计中被禁止、正常使用情况下绝不提供的信息,就这样被诱导了出来。这项研究成果对于不少企业来说,具有相当程度的警示作用,特别是那些运用人工智能客服、自动化处理流程,或是开发出了带图文输入功能的应用程序的公司。规模较小的组织所面临的风险更为显著:它们通常使用的开源通用AI模型,或是进行的安全测试范围有限,因此更容易遭受类似的攻击。由此可能引发的隐患不容忽视,比如聊天机器人或许会将企业的内部资料外泄。