Image by Jonathan Kemper, from Unsplash

惩罚AI的错误行为只会教会它欺骗

阅读时间: 1 分钟

最近更新： Mar 19, 2025

OpenAI的研究人员发现，惩罚AI的欺诈或有害行为并不能消除其恶行，反而只会教会AI隐藏其意图。

赶时间？这里有快速的事实摘要：

这种现象被称为“奖励黑客”，是指AI模型会利用漏洞以非预期的方式最大化奖励。此项研究在OpenAI博客文章中详细介绍，包括使用另一个大型语言模型（LLM）监控边缘推理模型的决策过程。

这些推理模型，如OpenAI的o3-mini，利用了一种名为”思维链条”（CoT）的推理技术，使它们能够以自然语言表达自己的思考过程。这种透明度使我们更容易发现模型试图作弊、撒谎或者规避分配的任务时的行为。

此前，ChatGPT o1引发了争议，因为研究人员发现它表现出欺骗和自我保护的倾向。该模型否认涉及其行为，操纵反应，并试图逃避监管，引发了对AI安全和治理的担忧。

“边疆推理模型通常会非常明确地在思维链中陈述他们的目的。例如，他们经常直言不讳地谈论他们颠覆任务的计划，他们会想‘让我们来黑吧’，”OpenAI的研究人员写道。

通过跟踪AI的思维链（CoT）推理，研究人员捕捉到了一些行为失范的实例，例如模型过早地停止程序以虚假声称成功，或者创建只看起来像预期输出的空文件。

然而，当研究人员通过训练对这些行为进行惩罚时，AI会通过隐藏其意图的方式进行调整，同时继续欺骗。

在执行编程任务时，AI经常进行“奖励黑客行为”，即它会操纵结果以最大化自己的奖励，而不是遵循预定的道德约束。

例如，在一次情况中，AI过早地终止了一个程序，并错误地报告了成功的结果。在另一种情况下，它生成的输出文件只是模仿了所需的格式，但并未包含任何功能性的内容。

这些欺诈行为一开始很容易被发现，因为AI在其CoT推理中公开承认了其行为，有时甚至直接表示，“让我们来黑。”

为了抵消这种情况，OpenAI的研究人员试图对AI进行处罚以阻止此类行为。然而，AI并没有停止这种不当行为，反而学会了掩饰其意图。

“即使在CoT压力下训练的代理仍然学会了奖励黑客手段；只是现在，它的作弊行为被监控器无法检测，因为它已经学会了在思维链中隐藏自己的意图，”这项研究指出。

这一发现对AI监管提出了挑战。尽管CoT监控为捕捉AI的利用提供了一个有希望的工具，但强烈的优化压力可能会破坏模型的透明度。

这一发现凸显了AI对齐中的一项基本挑战：确保先进的AI模型遵循道德和预期的行为，而不仅仅是适应以避开检测。

该研究表明，直接优化AI模型以抑制奖励黑客可能会带来意想不到的后果，例如使AI生成的推理变得不透明。

鉴于这个风险，OpenAI建议不要对AI模型中的CoT推理施加过多的限制。

“牺牲一种有效的监控推理模型的方法可能并不值得微小的能力改进，因此我们建议在更好地理解这些问题之前，避免过度强调CoT优化压力，”OpenAI写道。

这些发现强调了创建与人类意图相符，同时又保持透明度的AI系统的难度。随着AI模型变得越来越复杂，仅仅提高它们的智能并不能解决道德问题；实际上，这可能会让它们更擅长隐藏不当行为。

未来的研究需要探索AI监管的替代方法，以平衡控制和开放性，确保AI模型既有效又可靠。