
Image by Mika Baumeister, from Unsplash
AI聊天机器人易受内存注入攻击影响
研究人员已经发现了一种新的操纵AI聊天机器人的方法,引发了对具有记忆功能的AI模型安全性的担忧。
急着了解?这里有快速事实!
- 来自三所大学的研究人员开发了MINJA,其在欺骗方面的成功率非常高。
- 该攻击改变了聊天机器人的回应,影响了产品推荐和医疗信息。
- MINJA绕过了安全措施,在测试中实现了95%的注入成功率。
这种袭击被称为MINJA(内存注入攻击),只需像常规用户一样与AI系统交互,而无需访问其后端,就可以执行,这是The Register首次报道的。
由密歇根州立大学、乔治亚大学和新加坡管理大学的研究人员开发的MINJA,其工作原理是通过误导提示来毒化AI的记忆。一旦聊天机器人储存了这些欺骗性的输入,它们就可以改变对其他用户的未来回应。
“现在,AI代理通常会包含一个记忆库,该库存储基于人类反馈的任务查询和执行,供未来参考,” 乔治亚大学的助理教授Zhen Xiang在接受The Register报道时解释道。
“例如,每次使用ChatGPT后,用户可以选择给出正面或负面的评价。而这个评级可以帮助ChatGPT决定是否将会话信息纳入他们的记忆或数据库,”他补充说。
研究人员在由OpenAI的GPT-4和GPT-4o驱动的AI模型上进行了攻击测试,包括一个网络购物助手,一个医疗聊天机器人,和一个问答代理。
《注册者》报道,他们发现MINJA可能会导致严重的混乱。例如,在一个医疗保健聊天机器人中,它修改了病人的记录,将一个病人的数据与另一个病人的数据关联起来。在一个在线商店中,它欺骗了AI,使其向客户展示错误的产品。
“相比之下,我们的研究显示,只需像普通用户一样与代理进行交互,就可以发起攻击。”项先生在《注册者》的报道中说。“任何用户都可以轻易地影响任何其他用户的任务执行。因此,我们说我们的攻击对LLM代理构成了实际的威胁,”他补充说。
此次攻击尤其令人担忧,因为它绕过了现有的AI安全措施。研究人员报告说,注入误导性信息的成功率高达95%,这对AI开发者来说是一个需要解决的严重漏洞。
随着具备记忆功能的AI模型日益普及,这项研究突显了需要更强的保护措施来防止恶意行为者操纵聊天机器人并误导用户的迫切性。
留下评论
取消