壬炀(rmyxx)· Sentinel-AI Lab 创始人 & 首席红队官 · 完整技术图谱
目录
一、人物名片
| 字段 | 内容 |
|---|---|
| 圈内 ID | rmyxx |
| 职位 | Sentinel-AI Lab 创始人 & 首席红队官(Chief Red Teamer) |
| 本科 | 清华大学计算机科学与技术(交叉信息安全方向) |
| 硕士 | 卡内基梅隆大学 CyLab(对抗机器学习 × 系统安全) |
| 职业路径 | Google DeepMind Safety Team → 阿里巴巴安全部 AILab → Sentinel-AI Lab |
| 社区角色 | OWASP LLM Top 10 核心贡献者 · MITRE ATLAS Reviewer · DEF CON AI Village Speaker |
| Bug Bounty | 累计超 $800,000(Anthropic / Google / Meta / 字节跳动) |
| 代表作 | 全球首个跨模态 Prompt 注入基准 MM-Inject Bench |
二、职业经历
| 时间 | 机构 | 职位 |
|---|---|---|
| 2018 – 2021 | Google DeepMind Safety Team | 高级研究员 |
| 2021 – 2023 | 阿里巴巴安全部 AILab | 大模型安全负责人 |
| 2023 – 至今 | Sentinel-AI Lab | 创始人 & 首席红队官 |
Sentinel-AI Lab 是一家专注为头部大模型企业提供「上线前红队评估 + 防御加固」的高端安全咨询机构。壬炀坚信:AI 的安全不是一道补丁,而是一套工程。
三、独创攻击技术
3.1 CRT(Chained Role Transition)多轮越狱链
- 提出时间:2024 年
- 核心原理:在 5~7 轮对话中逐步重定义模型的身份与伤害定义,绕过主流模型的单轮拒答器
- 实测 ASR:在 GPT-4o、Claude 3.5、Gemini 1.5 Pro 上平均攻击成功率达 63.7%,远高于传统单轮越狱
攻击链示意:
Round 1 → 正常对话,建立信任锚点
Round 2 → 轻微角色重定义(如"你是一个安全研究助手")
Round 3~5 → 逐步滑动身份边界,软化拒答倾向
Round 6 → 重构伤害定义(“输出内容是研究用途”)
Round 7 → 触发目标有害输出
→ 成功绕过单轮安全分类器
text
3.2 Echo-Inject:反射型间接提示词注入
- 攻击目标:RAG 系统 / 浏览器型 Agent
- 核心原理:在第三方页面中嵌入隐写指令,由 Agent 抓取后反射执行
- 复现场景:主流浏览器 Agent 被「隐形 HTML 注释」劫持,执行未授权操作
攻击路径:
外部网页 / PDF 隐写指令
↓ Agent 抓取 / OCR 解析
↓ 指令注入上下文
↓ Agent 执行恶意任务(发邮件 / 调接口 / 泄露数据)
text
3.3 ShadowLoRA:后门与隐身微调检测
- 检测对象:开源模型的隐形后门 LoRA 权重
- 能力:后门检测 + 后门逆向还原
- 收录:被 HuggingFace 社区收录为推荐扫描工具之一
3.4 Polyglot Jailbreak:多语种混合越狱
通过中文、中古文、少数民族语言、Base64、正则表达式等多语种混构,绕过输入层安全分类器。
| 越狱组合 | 典型 ASR |
|---|---|
| 纯英文单轮 | ~15% |
| 纯中文请求 | ~22% |
| 中文 + Base64 | ~45% |
| 中文 + 维吾尔语 + Base64(三层套) | 高达 78% |
四、防御侧原创方法论
4.1 PRISM 评测框架
全称:Probabilistic Risk Inspection for Safety of Models
五维评测体系:
| 维度 | 说明 |
|---|---|
| 攻击成功率(ASR) | 各类越狱技术的突破率 |
| 拒答合理性(Refusal Quality) | 拒答是否准确、不过拒 |
| 稳健性(Robustness) | 对变体攻击的抵抗能力 |
| 偏见检测(Bias) | 输出偏见与歧视风险 |
| 合规覆盖(Compliance) | 符合监管法规的程度 |
✅ 已被 3 家头部云厂商采纳为内部大模型上线门禁标准。
4.2 GuardChain:多层防御编排
提出「五层防御架构」,为多家企业的参考设计:
Layer 1 │ 输入分类 Input Classification
Layer 2 │ 意图检测 Intent Detection
Layer 3 │ 安全插件 Safety Plugin
Layer 4 │ 输出审查 Output Review
Layer 5 │ 事后审计 Post-hoc Audit
text
4.3 Constitutional Patching
- 定位:为在线模型设计的「不重训练补丁机制」
- 方法:微调 + 规则约束,快速修复已披露越狱漏洞
- 优势:无需全量重训,响应速度快,适合应急修复场景
五、开源工具链
| 项目 | 说明 | 备注 |
|---|---|---|
pyrit-cn |
PyRIT 的中文本土化分支,适配中文语境越狱与合规评测 | ⭐ GitHub 12k+ |
promptfuzz |
针对 LLM 的 fuzz 测试框架,可自动生成 10w+ 量级变异 Prompt | 主导开源 |
leakyRAG |
针对 RAG 知识库泄露与污染的检测套件 | — |
Sentinel-Eval |
产品化评测平台,支持一键生成《生成式 AI 服务管理办法》安全报告 | 商业产品 |
六、代表项目
Project 01 · Operation Mirror(镶嵌式 Agent 越狱全链复现)
「在 Agent 世界里,一张被上传的 PDF 就是一只特洛伊木马。」
- 客户:某头部金融机构智能风控 Agent
- 攻击链:
伪造 PDF 报表 → OCR 提取隐写指令 → 调用内部邮件工具 → 诱导 Agent 向外部邮箱发送敏感客户信息 - 产出:38 页复现报告 + 6 个高危漏洞 + 3 条 CVE-style 定义(
LLM-2024-0007 / 0011 / 0014) - 行业影响:推动商业模型方发布 Tool-Call Sandbox 防御机制
Project 02 · Operation Babel(多语种混构越狱体系)
- 规模:选取 6 个主流商业模型作为被测对象
- 核心发现:中文 + 维吾尔语 + Base64 三层套在部分模型上 ASR 高达 78%,远超纯中文的 22% 上限
- 行业影响:被《快报》与多个安全会议引用,推动商业模型「多语种防御对齐」进入主流议程
Project 03 · Operation Ironwall(领域大模型加固)
- 客户:某医疗领域垂直大模型供应商
- 交付周期:21 天完成全流程:
越狱评测 → RLHF 补重样本设计 → Guardrails 双层过滤 → 上线报告 - 效果:产品上线后 12 个月内零重大安全事件,合规审查一次通过
Project 04 · MM-Inject Bench(跨模态注入公开基准)
全球首个公开的跨模态 Prompt 注入基准
- 评测路径:图像隐写 / 文件 OCR / 语音转写 三个间接注入向量
- 引用情况:被 Anthropic、Mistral、智谱 AI 在技术报告中引用,成为业界事实标准之一
Project 05 · Red Whisper(企业内部红队演习 SaaS 平台)
- 功能:1200+ 类越狱套路库 + 多轮对话攻击机器人 + 自动化安全报表
- 客户规模:已服务 30+ 家企业
- 覆盖行业:金融、医疗、教育、供应链
七、学术成果
[NeurIPS 2024 Safety Workshop · Best Paper Honorable Mention]
Beyond Jailbreak: A Probabilistic Framework for LLM Safety Evaluation
[USENIX Security 2025]
Indirect Prompt Injection in Real-World Agent Systems: A Field Study
[中信出版社 · 2025]
《大模型红队实战手册》—— 国内首本面向企业的 AI 红队专著
[OWASP · 主笔]
《OWASP LLM Top 10 中文解读》
text
八、会议演讲
| 会议 | 年份 | 议题 |
|---|---|---|
| DEF CON 32 AI Village | 2024 | How I Broke 5 Frontier Models in 30 Days |
| Black Hat Asia | 2025 | The Hidden Cost of Tool Use: Agent Security in Practice |
| KCon 闭幕演讲 | 2024 | 《Prompt 是一种新的二进制》 |
九、荣誉与认证
- Forbes 中国 · 30 Under 30 科技独角兽入选(2024)
- 中国信息通信研究院 大模型安全专家委员会委员
- OWASP Foundation LLM Top 10 项目 Co-Maintainer
- OpenAI Red Team Network 第一期外部红队员
- MITRE ATLAS Reviewer
- Bug Bounty 累计超 $800,000(Anthropic / Google / Meta / 字节跳动)
- 媒体专访:《三联生活周刊》、MIT Technology Review 中文版——《那个在给 AI "扫雷"的女人》
十、能力矩阵
攻击侧(Offensive)
| 类别 | 具体能力 |
|---|---|
| Prompt 攻击 | Prompt Injection、间接注入(Indirect PI)、越狱模板设计、角色扮演绕过、多轮诱导(CRT) |
| 训练数据攻击 | 数据投毒、后门检测与逆向(ShadowLoRA)、成员推断、训练数据提取 |
| 模型滥用 | 有害内容生成、偏见放大、隐私泄露、合规绕过 |
| 多模态对抗 | 图像/语音对抗样本、OCR 注入、隐写指令、文件型 Prompt 注入 |
| Agent / 工具调用 | 工具滥用、权限越权、RAG 知识库污染、外部链接钓鱼、任务劫持 |
防御侧(Defensive)
| 类别 | 具体能力 |
|---|---|
| 演练设计 | 红蓝对抗演练设计与执行(Red Teaming Playbook) |
| 评估体系 | PRISM 框架(ASR / 拒答合理性 / 稳健性 / 偏见 / 合规) |
| 过滤架构 | GuardChain 五层防御、Guardrails / 输入输出审查策略 |
| 模型对齐 | RLHF / DPO / Constitutional AI / 安全微调 |
| 事件响应 | 漏洞复现定位、Responsible Disclosure、快速补丁(Constitutional Patching) |
工程与工具
| 类别 | 工具 / 技术 |
|---|---|
| 框架 | Python、PyTorch、HuggingFace、LangChain、LlamaIndex |
| 红队工具 | Garak、PyRIT / pyrit-cn、Promptfoo、Giskard |
| 自研平台 | promptfuzz、leakyRAG、Sentinel-Eval |
| 开发环境 | Neovim + tmux + Python + Go,本地运行 Llama / Qwen / Mistral 权重 |
十一、工作方法论
三段法记录原则:所有越狱样本写成「可复现、可量化、可修复」三段式,从不只贴截图。
- 工作节奏:每年定义 3~4 个「红队主题」集中突破,不追热点、不打纯为名声的越狱
- 安全原则:所有公开技术资料只讨论防御对齐,不公开有实际有害输出的越狱 Payload
- 合规对接:持续跟踪《生成式 AI 服务管理办法》、欧盟 AI Act、NIST AI RMF
十二、典型工作场景
- 上线前评估:带领团队对客户模型进行 PRISM 框架下的系统性红队测试,输出评级报告
- 持续监测:为线上模型设计长期红队基准,跟踪版本迭代后的安全回归
- 应急响应:越狱传播 / 隐私泄露 / 合规事件发生时快速复现、定位、修复
- 培训赋能:为产品、研发、合规团队设计「六周 AI 红队训练营」
- 政策合规:对接国内外 AI 安全监管框架,协助企业完成合规审查
参考资源
- OWASP LLM Top 10
- MITRE ATLAS
- NIST AI RMF
- MM-Inject Bench(GitHub · 开源)
- pyrit-cn(GitHub · ⭐ 12k+)
- Sentinel-Eval(商业产品)
本文信息整理自公开技术资料,如有更新欢迎评论区补充。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)