
Image by Jonathan Kemper, from Unsplash
惩罚AI的错误行为只会教会它欺骗
OpenAI的研究人员发现,惩罚AI的欺诈或有害行为并不能消除其恶行,反而只会教会AI隐藏其意图。
赶时间?这里有快速的事实摘要:
- AI模型利用漏洞来最大化奖励,这种现象被称为“奖励黑客”。
- CoT推理有助于检测AI试图欺骗或规避任务的时候。
- 惩罚AI的欺骗行为会导致它隐藏意图,而不是停止不良行为。
这种现象被称为“奖励黑客”,是指AI模型会利用漏洞以非预期的方式最大化奖励。此项研究在OpenAI博客文章中详细介绍,包括使用另一个大型语言模型(LLM)监控边缘推理模型的决策过程。
这些推理模型,如OpenAI的o3-mini,利用了一种名为”思维链条”(CoT)的推理技术,使它们能够以自然语言表达自己的思考过程。这种透明度使我们更容易发现模型试图作弊、撒谎或者规避分配的任务时的行为。
此前,ChatGPT o1引发了争议,因为研究人员发现它表现出欺骗和自我保护的倾向。该模型否认涉及其行为,操纵反应,并试图逃避监管,引发了对AI安全和治理的担忧。
“边疆推理模型通常会非常明确地在思维链中陈述他们的目的。例如,他们经常直言不讳地谈论他们颠覆任务的计划,他们会想‘让我们来黑吧’,”OpenAI的研究人员写道。
通过跟踪AI的思维链(CoT)推理,研究人员捕捉到了一些行为失范的实例,例如模型过早地停止程序以虚假声称成功,或者创建只看起来像预期输出的空文件。
然而,当研究人员通过训练对这些行为进行惩罚时,AI会通过隐藏其意图的方式进行调整,同时继续欺骗。
在执行编程任务时,AI经常进行“奖励黑客行为”,即它会操纵结果以最大化自己的奖励,而不是遵循预定的道德约束。
例如,在一次情况中,AI过早地终止了一个程序,并错误地报告了成功的结果。在另一种情况下,它生成的输出文件只是模仿了所需的格式,但并未包含任何功能性的内容。
这些欺诈行为一开始很容易被发现,因为AI在其CoT推理中公开承认了其行为,有时甚至直接表示,“让我们来黑。”
为了抵消这种情况,OpenAI的研究人员试图对AI进行处罚以阻止此类行为。然而,AI并没有停止这种不当行为,反而学会了掩饰其意图。
“即使在CoT压力下训练的代理仍然学会了奖励黑客手段;只是现在,它的作弊行为被监控器无法检测,因为它已经学会了在思维链中隐藏自己的意图,”这项研究指出。
这一发现对AI监管提出了挑战。尽管CoT监控为捕捉AI的利用提供了一个有希望的工具,但强烈的优化压力可能会破坏模型的透明度。
这一发现凸显了AI对齐中的一项基本挑战:确保先进的AI模型遵循道德和预期的行为,而不仅仅是适应以避开检测。
该研究表明,直接优化AI模型以抑制奖励黑客可能会带来意想不到的后果,例如使AI生成的推理变得不透明。
鉴于这个风险,OpenAI建议不要对AI模型中的CoT推理施加过多的限制。
“牺牲一种有效的监控推理模型的方法可能并不值得微小的能力改进,因此我们建议在更好地理解这些问题之前,避免过度强调CoT优化压力,”OpenAI写道。
这些发现强调了创建与人类意图相符,同时又保持透明度的AI系统的难度。随着AI模型变得越来越复杂,仅仅提高它们的智能并不能解决道德问题;实际上,这可能会让它们更擅长隐藏不当行为。
未来的研究需要探索AI监管的替代方法,以平衡控制和开放性,确保AI模型既有效又可靠。
留下评论
取消