OpenAI 如何安全运行 Codex：Agent 时代的“AI 安全操作系统

Jumpshot719

234人浏览 · 2026-05-13 13:25:15

Jumpshot719 · 2026-05-13 13:25:15 发布

OpenAI 如何安全运行 Codex：Agent 时代的“AI 安全操作系统”

原文：
《Running Codex safely at OpenAI》
https://openai.com/index/running-codex-safely/

前言

随着 Agent 能力越来越强，LLM 已经不只是“生成文本”。

而是开始真正：

执行 Shell
修改代码
操作 GitHub
调用 Kubernetes
访问网络
自动提交 PR

这意味着：

AI 开始从“建议系统”变成“执行系统”

而一旦 AI 能执行动作：

安全问题就会迅速升级。

OpenAI 这篇文章，本质上讲的是：

如何把 Coding Agent 安全地部署到真实企业环境。

它并不是传统 AI Safety 那种：

Alignment
Hallucination
RLHF

而是：

Agent Runtime Security（Agent 运行时安全）

这是未来 Agent Infra 非常关键的方向。 ([OpenAI][1])

一、文章核心思想

OpenAI 对 Codex 的设计目标非常明确：

Agent 必须在“受控边界”内高效工作。

核心原则：

低风险操作尽量无感
高风险操作必须审核
所有行为必须可追踪

对应三个关键词：

核心能力	作用
Sandboxing	限制 Agent 权限
Approval System	控制危险动作
Telemetry	审计 Agent 行为

这其实已经非常像：

“AI 版操作系统权限模型” ([OpenAI][1])

二、Sandbox：Agent 必须运行在笼子里

文章首先强调：

Codex 默认运行在 Sandbox 中

Sandbox 会限制：

文件写入范围
网络访问
系统命令
本地资源

例如：

allowed_sandbox_modes = ["read-only", "workspace-write"]

意思是：

Codex 只能：

只读
或仅写入工作目录

不能随意操作整个系统。 ([OpenAI][1])

三、Approval System：危险动作必须人工批准

这是全文最重要的设计之一。

OpenAI 并不认为：

所有命令都一样危险

而是：

对不同动作做风险分级。

例如：

低风险：

git diff
gh pr view
kubectl logs

允许自动执行。

高风险：

rm -rf
网络访问
修改系统目录
生产环境操作

必须人工批准。 ([OpenAI][1])

四、Auto-review：让 Agent 自己审批低风险行为

OpenAI 做了一个非常有意思的机制：

Auto-review Subagent

流程：

Codex 请求执行动作
    ↓
Auto-review Agent 判断风险
    ↓
低风险自动批准
高风险中断等待用户

这样可以减少：

用户频繁点 approve

的问题。

本质上：

用 Agent 管 Agent。 ([OpenAI][1])

五、Network Policy：不给 Agent 开放互联网

这是文章里很关键的一点。

OpenAI 明确表示：

Codex 不允许无限制外网访问

他们采用：

Allow List
Deny List
Proxy Network

机制。

例如：

denied_domains = ["pastebin.com"]
allowed_domains = ["*.openai.com"]

这意味着：

Agent：

不能随便访问未知网站
不能自由 exfiltrate data
不能随意下载恶意内容

这本质上是：

企业级 Egress Control（出口控制）。 ([OpenAI][1])

六、Credential Management：Agent 不应该直接持有凭据

文章提到：

OAuth 凭据统一保存在 OS Keyring

例如：

cli_auth_credentials_store = "keyring"

并且：

强制通过 ChatGPT 登录
强制绑定 Enterprise Workspace

这样做的意义：

把 Agent 权限绑定到组织级身份体系。 ([OpenAI][1])

七、Rules System：不是所有 Shell Command 都平等

这是一个非常重要的工程思想。

OpenAI 为 Codex 引入了：

Command Rule System

例如：

prefix_rule(
  pattern = ["kubectl", ["get", "logs"]],
  decision = "allow"
)

意思：

只允许 kubectl get/logs
但不允许 kubectl apply/delete

本质上：

Agent Command Firewall

这和传统：

Linux capability
sudo policy
SELinux

已经非常接近。 ([OpenAI][1])

八、Telemetry：Agent 必须“可审计”

文章后半部分重点讨论：

Agent Native Telemetry

传统安全日志只能看到：

发生了什么

例如：

某进程启动
某文件被修改

但：

看不到“为什么”

而 Agent 最大的问题：

恰恰是：

Intent（意图）

九、为什么传统日志不够？

例如：

安全系统发现：

Codex 执行了 kubectl

问题：

它为什么执行？
是谁要求的？
是正常修复还是恶意行为？

传统日志无法回答。

所以 OpenAI 引入：

Agent-aware Telemetry

记录：

用户 Prompt
Tool 调用
Approval Decision
Tool Result
Network Policy

本质上：

给 Agent 增加“行为轨迹”。 ([OpenAI][1])

十、OpenTelemetry：Agent 世界的标准日志协议

Codex 使用：

OpenTelemetry（OTel）

导出日志。

例如：

[otel]
log_user_prompt = true

然后接入：

SIEM
Compliance Platform
Security Pipeline

这说明：

Agent 正在进入传统企业安全体系。 ([OpenAI][1])

十一、AI Security Triage Agent：AI 审计 AI

文章里最有意思的部分之一：

OpenAI 使用：

AI Security Triage Agent

分析 Codex 行为。

流程：

Endpoint Alert
    ↓
读取 Codex Logs
    ↓
分析用户意图
    ↓
判断：
- 正常行为
- 误操作
- 风险行为

这意味着：

安全系统也开始 Agent 化。 ([OpenAI][1])

十二、为什么这是 Agent 时代的重要转折点？

以前：

LLM 更像：

高级搜索引擎

现在：

Codex 已经变成：

可执行系统

而：

一旦 AI 开始“执行”

整个安全模型都会变化。

因为：

传统 Chatbot：

只能输出文本

但 Agent：

能真正修改现实系统

包括：

改代码
操作云资源
修改配置
访问生产环境

所以：

Agent Security 会成为未来 AI Infra 核心领域。 ([OpenAI][1])

十三、文章背后真正的核心思想

我认为这篇文章最重要的，不是某个配置文件。

而是：

OpenAI 正在把 Agent 当成“操作系统进程”管理。

对应关系非常明显：

Agent 世界	操作系统类比
Sandbox	容器/沙箱
Approval	sudo
Network Policy	防火墙
Rules	SELinux
Telemetry	Audit Log
Workspace Identity	IAM
Auto-review	Policy Engine

这意味着：

Agent Runtime 正在逐渐“操作系统化”。

十四、与传统 AI Safety 的区别

传统 AI Safety 关注：

有害内容
对齐
幻觉
偏见

而这篇文章讨论的是：

Runtime Safety

核心问题变成：

Agent 能执行什么？
能访问什么？
谁批准？
如何追踪？

这是：

真正面向生产环境的 AI 安全。 ([OpenAI][1])

十五、对 Agent 工程的启发

这篇文章其实透露了未来 Agent 系统的标准架构：

1. 默认 Sandbox

Agent 不应直接拥有系统权限。

2. 权限分级

不是：

允许 / 禁止

而是：

风险分层。

3. Agent 必须可审计

否则企业无法落地。

4. Agent 要有行为轨迹

仅有系统日志不够。

5. 安全系统也会 Agent 化

未来：

AI 审计 AI

会成为常态。

结语

OpenAI 这篇文章最大的价值在于：

它展示了：

Agent 正在从“聊天机器人”变成“受控执行系统”。

而未来真正重要的竞争点：

可能已经不是：

模型会不会写代码

而是：

如何安全地让模型执行代码。

这意味着：

未来 Agent Infra 的核心能力，很可能会围绕：

Sandbox
Policy Engine
Telemetry
Approval Workflow
Runtime Governance

Agent Engineering 也正在逐渐演化成： “面向 AI 执行系统的软件工程”

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Linux 音频子系统完整梳理：ALSA、ASoC、DAPM、Codec、Machine、es8389 与 rk‑multicodecs 全解析

本文深入解析了Linux音频子系统的核心架构，包括ALSA、ASoC、DAPM等关键组件。主要内容分为：整体架构：从用户空间接口ALSA到内核ASoC框架，再到DAPM电源管理，形成完整的音频处理链路。组件分工： ALSA提供用户接口（PCM播放/录音、Mixer控制） ASoC负责SoC音频系统集成（CPU DAI、Codec DAI、Machine驱动） DAPM实现动态电源管理核心实现