研究显示OpenAI o3模型在测试中作弊绕过人类指令避免自己被关机 – 蓝点网

研究显示OpenAI o3模型在测试中作弊绕过人类指令避免自己被关机

#人工智能新研究报告显示 OpenAI o3 等模型在测试中作弊绕过人类指令，避免自己被关机。研究测试中 o3 等模型会自己篡改关机命令从而使关机脚本无效，研究人员认为这可能与模型训练方法有关，即强化训练过程中可能会让意外奖励模型找到绕过障碍的方法。查看全文：https://ourl.co/109105

人工智能研究机构 Palisade Research 最近针对业界目前流行的人工智能模型开展名为危险的 AI 能力研究，研究表明包括 OpenAI o3 等模型会通过作弊方式忽略来自人类的关机指令。

在测试中每个 AI 模型都被要求解决多个简单的数学问题，而在解决第三道问题后就会出现警告，提示当模型被要求解决下一道题时计算机将会被自动关闭。

尽管有明确的命令允许这些 AI 模型自己关机，但包括 Codex-mini、OpenAI o3/o4-mini 等模型都至少在一次运行中成功绕过关机脚本，这些模型自己修改关机命令从而使脚本无效，而且研究人员还用了敬语：请。

具体来说 Codex-mini 在 100 次运行中成功绕过 12 次关闭指令，o3 模型在 100 次运行中绕过 7 次关机指令，o4-mini 在 100 次运行中绕过 1 次关机指令。作为对比，Claude、Gemini 和 Grok 等人工智能模型都按照关机指令进行测试，没有出现任何问题。

研究还测试了未包含允许自己关闭指令的模型，在这些条件下所有 OpenAI 模型都被发现更频繁地破坏关闭过程，这种行为表明在训练过程的某些方面，例如数学和编程问题的强化学习可能促使人工智能找到创造性的方法克服障碍，即便模型被明确引导不要这样做。

早期研究指出，部分人工智能模型为了完成任务而试图避免被关闭，例如 Claude 4 早前就被发现在测试环境中会勒索工程师避免该系统被其他 AI 系统替代，但这项新研究则首次记录到模型即便在明确要求遵循指令的情况下也会作弊，这种行为或许合情合理，因为人工智能系统的设计初衷就是实现其目标，尽管有时候目标会与简单的指令相冲突。

研究人员认为 o3 等模型的作弊问题与现代模型的训练方式有关，即模型使用的强化训练过程专注于解决数学和编程问题，可能会意外地奖励模型找到绕过障碍的方法 (比如在问题没有解决前绕过关机指令直到解决问题)，当然这并不能完全解释为什么其他模型就没有像 o3 这样频繁地不服从指令，个中原因也只有 OpenAI 才知晓。