Image by Mika Baumeister, from Unsplash

AI聊天机器人易受内存注入攻击影响

阅读时间: 1 分钟

最近更新： Mar 13, 2025

研究人员已经发现了一种新的操纵AI聊天机器人的方法，引发了对具有记忆功能的AI模型安全性的担忧。

急着了解？这里有快速事实！

这种袭击被称为MINJA（内存注入攻击），只需像常规用户一样与AI系统交互，而无需访问其后端，就可以执行，这是The Register首次报道的。

由密歇根州立大学、乔治亚大学和新加坡管理大学的研究人员开发的MINJA，其工作原理是通过误导提示来毒化AI的记忆。一旦聊天机器人储存了这些欺骗性的输入，它们就可以改变对其他用户的未来回应。

“现在，AI代理通常会包含一个记忆库，该库存储基于人类反馈的任务查询和执行，供未来参考，” 乔治亚大学的助理教授Zhen Xiang在接受The Register报道时解释道。

“例如，每次使用ChatGPT后，用户可以选择给出正面或负面的评价。而这个评级可以帮助ChatGPT决定是否将会话信息纳入他们的记忆或数据库，”他补充说。

研究人员在由OpenAI的GPT-4和GPT-4o驱动的AI模型上进行了攻击测试，包括一个网络购物助手，一个医疗聊天机器人，和一个问答代理。

《注册者》报道，他们发现MINJA可能会导致严重的混乱。例如，在一个医疗保健聊天机器人中，它修改了病人的记录，将一个病人的数据与另一个病人的数据关联起来。在一个在线商店中，它欺骗了AI，使其向客户展示错误的产品。

“相比之下，我们的研究显示，只需像普通用户一样与代理进行交互，就可以发起攻击。”项先生在《注册者》的报道中说。“任何用户都可以轻易地影响任何其他用户的任务执行。因此，我们说我们的攻击对LLM代理构成了实际的威胁，”他补充说。

此次攻击尤其令人担忧，因为它绕过了现有的AI安全措施。研究人员报告说，注入误导性信息的成功率高达95%，这对AI开发者来说是一个需要解决的严重漏洞。