Image generated with DALL·E through ChatGPT

观点：我们尚未准备好应对的危机——人工智能的幻觉疫情

阅读时间: 1 分钟

最近更新： Feb 28, 2025

作者 Andrea Miliani 科技新闻专家
翻译本地化和翻译团队 本地化和翻译服务

尽管一直承诺减少AI的”幻觉”现象，但从ChatGPT到Perplexity，再到Gemini，以及Apple Intelligence等主要的AI工具，继续生成虚假信息，而且往往带来令人警惕的后果。包括那些对AI风险发出警告的专家们，也被假造的内容所蒙蔽，甚至像Deep Research这样的先进工具也在编造报告。真相似乎仍然在人类手中

这些年来，聊天机器人的表现一直在改善—改善得非常大。然而，有一个问题至今仍没有得到完全解决，这就是所谓的”幻觉”。

我们深爱的聊天机器人以科幻小说中尤达一般的决心和权威回答我们的问题，即使它们回答得很糟糕，我们也相信它们。有时，我们甚至盲目地信任它们。

多年来，许多科学家、专家，甚至聊天机器人的开发者都在警告大家要注意这种幻觉。然而，尽管采用率正在迅速扩大——就在几天前，《开放人工智能》报道了每周活跃用户达到了4亿——但AI的科学素养并没有跟上这个步伐。

近期的研究、法庭案例和戏剧性事件持续揭示，我们对错误信息的了解甚至比我们想象的更为危险。

情况比我们想象的更糟

起初，发现重大的人工智能生成错误是相当有趣的——就像Gemini生成的令人尴尬的AI概述建议用户在披萨食谱的酱料中加入“无毒胶水”，或者在去年推荐每天吃“一小块石头”。但是，随着我们重新对AI产生信任，情况已经升级，越来越令人担忧。

在十二月，我们看到苹果的AI工具创造了“概括”新闻的头条，并产生了虚假和误导性的信息，例如错误地声称BBC已经宣布Luigi Mangione自杀了。这起事件发生后，这家出版社向苹果提出了投诉，并开始研究生成式AI在分析新闻内容时的准确性。

几天前公布的BBC的调查结果显示了令人震惊的统计数据：受欢迎的AI聊天机器人提供的答案中有51%存在重大问题，模型提供的引语中有13%完全是捏造的，而19%的数据是错误的。

青少年是受影响最严重的群体之一，他们常常难以区分假新闻和真新闻，并且很容易受到AI生成内容的影响。一项在一月份发表的研究显示，有35%的青少年被AI模型生成的假内容误导，22%的青少年分享了这些假信息。

但不仅仅是青少年和粗心的人会被这些幻觉所迷惑。也不仅仅是双子座或苹果智能。

没有AI模型能幸免，没有行业是安全的

BBC进行的研究证实了另一个问题：所有的AI模型都会产生幻觉。专家们考虑了最流行的模型，如ChatGPT、Gemini、Perplexity和Copilot。没有一个AI模型能免疫错误。Anthropic有一个页面专门解决这个问题，提出了如何减少幻觉的想法。文档指出，“即使是最先进的语言模型，如Claude，有时也会生成与给定上下文不一致或事实错误的文本。” 其他AI公司也分享了类似的页面，提供了避免假内容的提示和技巧，但是这并不容易，而且这个问题已经存在了很长一段时间。在2023年，OpenAI宣布他们正在研究新的创新方法来消除幻觉。剧透警告：这个问题至今仍然非常严重。

2024年1月——也就是一年多以前——CEO Aravind Srinivas 表示，Perplexity的幻觉主要出现在未付费账户中。”大部分的投诉来自于产品的免费版本，”Srinivas解释说，并补充道他们已经在增加更多的GPU来解决这个问题。然而，到了10月，纽约邮报和道琼斯对Perplexity提起了诉讼——因为他们的模型一直在误导他们的出版物——而且这家初创公司为美国选举开发的AI工具，被专家测试后发现存在不一致性，总结不准确，以及幻觉现象。

幻觉病正在达到科学和学术的水平

当前最大的担忧之一是，即使是专家——包括那些警告人工智能风险和危险的人——也会被这些易于产生幻觉的工具迷惑。

去年12月，斯坦福大学教授和科技与虚假信息专家杰夫·汉考克被指控使用AI制作法庭陈述。汉考克提交了一份12页的声明，为州的2023年法律进行辩护，该法律将使用深度伪造的行为刑事化，包括15个引用。然而，其中两个引用在任何地方都找不到——因为ChatGPT，这位虚假信息专家喜欢的AI工具，简单地编造了它们。

汉考克——今年计划教授“真理、信任和科技”——解释说，他利用OpenAI的聊天机器人来整理他的引用资料，这导致了一些幻觉。这位研究者道歉了——并坚持他的声明的实质观点——, 并教给我们所有人一个宝贵的教训，即即使是专家和最了解AI风险的人也会受到其影响。

当然，汉考克教授并不是唯一一个提交了包含AI生成虚构内容的法庭文件的人。另一起涉及对沃尔玛的诉讼的案件最近因为律师们使用AI生成的伪造案例来构建他们的论点而走红。事实上，这个问题在美国法庭中已经变得越来越频繁，以至于摩根&摩根律师事务所最近向其超过1000名律师发送了电子邮件，警告他们使用AI生成的引用资料的风险，美国律师协会也提醒其40万会员遵守律师道德规则——包括AI生成的信息。

深度研究也是如此

目前最受欢迎的AI工具之一是”深度研究”，它是为寻求在研究中得到更复杂结果的专家和科学家设计的。尽管OpenAI的版本最初需要200美元的Pro订阅才能访问，但这个工具也并不缺乏幻觉。

用户在Reddit上对此问题提出了担忧，他们报告所有具有深度研究工具的流行模型——Perplexity、ChatGPT和DeepSeek都出现了幻觉。研究人员和AI专家也在其他社交媒体平台如X上分享了令人不安的结果。

“这个工具生成了一份写得非常好，论点充分的报告，”一位使用OpenAI的Deep Research工具研究年轻人所做数学研究的用户写道。“唯一的问题是，这完全是编造的。”

“Deep Research编造了一堆统计数据和分析，声称收集了成千上万篇文章的数据集，并声称从可靠的来源收集了每位作者的出生年份信息，”另一位用户分享道。“但这一切都不是真的。”

这是我在苏打LLM中见过的最糟糕的幻觉已经有一段时间了

深度研究组编造了一堆统计数据和分析，声称汇编了数千篇文章的数据集，并声称从可靠的来源收集了每个作者的出生年份信息

这些都不是真的 https://t.co/ZZk40vTKIM pic.twitter.com/RAnNVcHDmR

— Paul Calcraft (@paul_cal) 2025年2月18日