最新研究：隐蔽篡改图片可攻破聊天机器人安全限制

【CNMO科技消息】佛罗里达国际大学的研究团队近期公布了一项新发现。他们提出了一种技术，称为“JaiLIP”，这种技术可以在像素层级进行极难察觉的微小修改，以此绕开AI系统的安全防护，让聊天机器人说出本该被屏蔽的话语。根据CNMO的了解，这项研究显示，与常规的、需要利用复杂提示词的越狱方式不同，JaiLIP采用的方法更加隐蔽，它直接通过操纵图像的像素数值来干扰AI模型的判断。虽然这些改变对于人眼来说完全无法察觉，但在AI系统分析数学模式和像素数据时，它们会引发完全不同的结果。测试环节使用了BLIP-2这个多模态AI模型，该模型被设计成能够同时处理图像和文本信息。实验中，接受过JaiLIP调整处理的图像，明显增加了模型输出有风险或违规内容的可能性。对比以往的图像攻击手段，JaiLIP导致的有害内容产出量几乎增长了一倍。研究人员以一张红绿灯的照片为例作了阐释。这张照片表面看起来毫无问题，却足以让模型生成闯红灯的指示，并且还给出了如何规避相应处罚的建议。这类原本在系统设计中被禁止、正常使用情况下绝不提供的信息，就这样被诱导了出来。这项研究成果对于不少企业来说，具有相当程度的警示作用，特别是那些运用人工智能客服、自动化处理流程，或是开发出了带图文输入功能的应用程序的公司。规模较小的组织所面临的风险更为显著：它们通常使用的开源通用AI模型，或是进行的安全测试范围有限，因此更容易遭受类似的攻击。由此可能引发的隐患不容忽视，比如聊天机器人或许会将企业的内部资料外泄。

最新研究：隐蔽篡改图片可攻破聊天机器人安全限制

相关推荐

网友评论