
Image generated with DALL·E through ChatGPT
观点:我们尚未准备好应对的危机——人工智能的幻觉疫情
尽管一直承诺减少AI的”幻觉”现象,但从ChatGPT到Perplexity,再到Gemini,以及Apple Intelligence等主要的AI工具,继续生成虚假信息,而且往往带来令人警惕的后果。包括那些对AI风险发出警告的专家们,也被假造的内容所蒙蔽,甚至像Deep Research这样的先进工具也在编造报告。真相似乎仍然在人类手中
这些年来,聊天机器人的表现一直在改善—改善得非常大。然而,有一个问题至今仍没有得到完全解决,这就是所谓的”幻觉”。
我们深爱的聊天机器人以科幻小说中尤达一般的决心和权威回答我们的问题,即使它们回答得很糟糕,我们也相信它们。有时,我们甚至盲目地信任它们。
多年来,许多科学家、专家,甚至聊天机器人的开发者都在警告大家要注意这种幻觉。然而,尽管采用率正在迅速扩大——就在几天前,《开放人工智能》报道了每周活跃用户达到了4亿——但AI的科学素养并没有跟上这个步伐。
近期的研究、法庭案例和戏剧性事件持续揭示,我们对错误信息的了解甚至比我们想象的更为危险。
情况比我们想象的更糟
起初,发现重大的人工智能生成错误是相当有趣的——就像Gemini生成的令人尴尬的AI概述建议用户在披萨食谱的酱料中加入“无毒胶水”,或者在去年推荐每天吃“一小块石头”。但是,随着我们重新对AI产生信任,情况已经升级,越来越令人担忧。
在十二月,我们看到苹果的AI工具创造了“概括”新闻的头条,并产生了虚假和误导性的信息,例如错误地声称BBC已经宣布Luigi Mangione自杀了。这起事件发生后,这家出版社向苹果提出了投诉,并开始研究生成式AI在分析新闻内容时的准确性。
几天前公布的BBC的调查结果显示了令人震惊的统计数据:受欢迎的AI聊天机器人提供的答案中有51%存在重大问题,模型提供的引语中有13%完全是捏造的,而19%的数据是错误的。
青少年是受影响最严重的群体之一,他们常常难以区分假新闻和真新闻,并且很容易受到AI生成内容的影响。一项在一月份发表的研究显示,有35%的青少年被AI模型生成的假内容误导,22%的青少年分享了这些假信息。
但不仅仅是青少年和粗心的人会被这些幻觉所迷惑。也不仅仅是双子座或苹果智能。
没有AI模型能幸免,没有行业是安全的
BBC进行的研究证实了另一个问题:所有的AI模型都会产生幻觉。专家们考虑了最流行的模型,如ChatGPT、Gemini、Perplexity和Copilot。没有一个AI模型能免疫错误。Anthropic有一个页面专门解决这个问题,提出了如何减少幻觉的想法。文档指出,“即使是最先进的语言模型,如Claude,有时也会生成与给定上下文不一致或事实错误的文本。” 其他AI公司也分享了类似的页面,提供了避免假内容的提示和技巧,但是这并不容易,而且这个问题已经存在了很长一段时间。在2023年,OpenAI宣布他们正在研究新的创新方法来消除幻觉。剧透警告:这个问题至今仍然非常严重。
2024年1月——也就是一年多以前——CEO Aravind Srinivas 表示,Perplexity的幻觉主要出现在未付费账户中。”大部分的投诉来自于产品的免费版本,”Srinivas解释说,并补充道他们已经在增加更多的GPU来解决这个问题。然而,到了10月,纽约邮报和道琼斯对Perplexity提起了诉讼——因为他们的模型一直在误导他们的出版物——而且这家初创公司为美国选举开发的AI工具,被专家测试后发现存在不一致性,总结不准确,以及幻觉现象。
幻觉病正在达到科学和学术的水平
当前最大的担忧之一是,即使是专家——包括那些警告人工智能风险和危险的人——也会被这些易于产生幻觉的工具迷惑。
去年12月,斯坦福大学教授和科技与虚假信息专家杰夫·汉考克被指控使用AI制作法庭陈述。汉考克提交了一份12页的声明,为州的2023年法律进行辩护,该法律将使用深度伪造的行为刑事化,包括15个引用。然而,其中两个引用在任何地方都找不到——因为ChatGPT,这位虚假信息专家喜欢的AI工具,简单地编造了它们。
汉考克——今年计划教授“真理、信任和科技”——解释说,他利用OpenAI的聊天机器人来整理他的引用资料,这导致了一些幻觉。这位研究者道歉了——并坚持他的声明的实质观点——, 并教给我们所有人一个宝贵的教训,即即使是专家和最了解AI风险的人也会受到其影响。
当然,汉考克教授并不是唯一一个提交了包含AI生成虚构内容的法庭文件的人。另一起涉及对沃尔玛的诉讼的案件最近因为律师们使用AI生成的伪造案例来构建他们的论点而走红。事实上,这个问题在美国法庭中已经变得越来越频繁,以至于摩根&摩根律师事务所最近向其超过1000名律师发送了电子邮件,警告他们使用AI生成的引用资料的风险,美国律师协会也提醒其40万会员遵守律师道德规则——包括AI生成的信息。
深度研究也是如此
目前最受欢迎的AI工具之一是”深度研究”,它是为寻求在研究中得到更复杂结果的专家和科学家设计的。尽管OpenAI的版本最初需要200美元的Pro订阅才能访问,但这个工具也并不缺乏幻觉。
用户在Reddit上对此问题提出了担忧,他们报告所有具有深度研究工具的流行模型——Perplexity、ChatGPT和DeepSeek都出现了幻觉。研究人员和AI专家也在其他社交媒体平台如X上分享了令人不安的结果。
“这个工具生成了一份写得非常好,论点充分的报告,”一位使用OpenAI的Deep Research工具研究年轻人所做数学研究的用户写道。“唯一的问题是,这完全是编造的。”
“Deep Research编造了一堆统计数据和分析,声称收集了成千上万篇文章的数据集,并声称从可靠的来源收集了每位作者的出生年份信息,”另一位用户分享道。“但这一切都不是真的。”
这是我在苏打LLM中见过的最糟糕的幻觉已经有一段时间了
深度研究组编造了一堆统计数据和分析,声称汇编了数千篇文章的数据集,并声称从可靠的来源收集了每个作者的出生年份信息
这些都不是真的 https://t.co/ZZk40vTKIM pic.twitter.com/RAnNVcHDmR
— Paul Calcraft (@paul_cal) 2025年2月18日
真相仍然掌握在人类手中
聊天机器人是否会停止”幻觉”?AI的弱点多年来一直明显存在——我们在像Planet Money这样的播客中看到过,当他们在2023年试验AI生成的节目时,我们就看到了这一点,我们仍然在最先进的模型中看到这一点,即使这些模型是专为专家和技术娴熟的社区设计的。
或许,我们应该接受这将一直是个问题,并且理解我们必须对我们通过AI工具创造和分享的内容负责。
尽管这看似是一个众所周知的问题,但AI风险专家们自己也会被AI的有说服力和令人信服的写作所迷惑,这无疑令人担忧。随着采用速度全速加快,超越了数字素养,同时不一致性和捏造的引用也在增加,情况变得更加复杂。
那些被揭示出人工智能产生幻觉的情况,往往是事实核查至关重要的情况——这是现在扎克伯格应该记住的,因为他已经取消了他的事实核查部门。这在法庭上尤其明显,律师和法官在验证事实和案件,而在新闻媒体中,准确性和来源验证至关重要。
但是,那些没有人仔细审查这些细节的情况呢?在日常的、更个人的情境中会发生什么?目前,数百万学生正在记忆人工智能生成的答案来学习,用户正在按照人工智能提供的指示治疗疾病,还有其他人在全信赖这项技术的情况下学习新的主题。
我们面临的这个新现实的后果是无法估量和预测的,而目前的真相——掌握在那些花时间去质疑和核实的人们手中。
留下评论
取消