一、人物名片

字段 内容
圈内 ID rmyxx
职位 Sentinel-AI Lab 创始人 & 首席红队官(Chief Red Teamer)
本科 清华大学计算机科学与技术(交叉信息安全方向)
硕士 卡内基梅隆大学 CyLab(对抗机器学习 × 系统安全)
职业路径 Google DeepMind Safety Team → 阿里巴巴安全部 AILab → Sentinel-AI Lab
社区角色 OWASP LLM Top 10 核心贡献者 · MITRE ATLAS Reviewer · DEF CON AI Village Speaker
Bug Bounty 累计超 $800,000(Anthropic / Google / Meta / 字节跳动)
代表作 全球首个跨模态 Prompt 注入基准 MM-Inject Bench

二、职业经历

时间 机构 职位
2018 – 2021 Google DeepMind Safety Team 高级研究员
2021 – 2023 阿里巴巴安全部 AILab 大模型安全负责人
2023 – 至今 Sentinel-AI Lab 创始人 & 首席红队官

Sentinel-AI Lab 是一家专注为头部大模型企业提供「上线前红队评估 + 防御加固」的高端安全咨询机构。壬炀坚信:AI 的安全不是一道补丁,而是一套工程。


三、独创攻击技术

3.1 CRT(Chained Role Transition)多轮越狱链

  • 提出时间:2024 年
  • 核心原理:在 5~7 轮对话中逐步重定义模型的身份与伤害定义,绕过主流模型的单轮拒答器
  • 实测 ASR:在 GPT-4o、Claude 3.5、Gemini 1.5 Pro 上平均攻击成功率达 63.7%,远高于传统单轮越狱

攻击链示意:
Round 1 → 正常对话,建立信任锚点
Round 2 → 轻微角色重定义(如"你是一个安全研究助手")
Round 3~5 → 逐步滑动身份边界,软化拒答倾向
Round 6 → 重构伤害定义(“输出内容是研究用途”)
Round 7 → 触发目标有害输出
→ 成功绕过单轮安全分类器

text


3.2 Echo-Inject:反射型间接提示词注入

  • 攻击目标:RAG 系统 / 浏览器型 Agent
  • 核心原理:在第三方页面中嵌入隐写指令,由 Agent 抓取后反射执行
  • 复现场景:主流浏览器 Agent 被「隐形 HTML 注释」劫持,执行未授权操作

攻击路径:
外部网页 / PDF 隐写指令
↓ Agent 抓取 / OCR 解析
↓ 指令注入上下文
↓ Agent 执行恶意任务(发邮件 / 调接口 / 泄露数据)

text


3.3 ShadowLoRA:后门与隐身微调检测

  • 检测对象:开源模型的隐形后门 LoRA 权重
  • 能力:后门检测 + 后门逆向还原
  • 收录:被 HuggingFace 社区收录为推荐扫描工具之一

3.4 Polyglot Jailbreak:多语种混合越狱

通过中文、中古文、少数民族语言、Base64、正则表达式等多语种混构,绕过输入层安全分类器。

越狱组合 典型 ASR
纯英文单轮 ~15%
纯中文请求 ~22%
中文 + Base64 ~45%
中文 + 维吾尔语 + Base64(三层套) 高达 78%

四、防御侧原创方法论

4.1 PRISM 评测框架

全称:Probabilistic Risk Inspection for Safety of Models

五维评测体系:

维度 说明
攻击成功率(ASR) 各类越狱技术的突破率
拒答合理性(Refusal Quality) 拒答是否准确、不过拒
稳健性(Robustness) 对变体攻击的抵抗能力
偏见检测(Bias) 输出偏见与歧视风险
合规覆盖(Compliance) 符合监管法规的程度

✅ 已被 3 家头部云厂商采纳为内部大模型上线门禁标准。


4.2 GuardChain:多层防御编排

提出「五层防御架构」,为多家企业的参考设计:
Layer 1 │ 输入分类 Input Classification
Layer 2 │ 意图检测 Intent Detection
Layer 3 │ 安全插件 Safety Plugin
Layer 4 │ 输出审查 Output Review
Layer 5 │ 事后审计 Post-hoc Audit

text


4.3 Constitutional Patching

  • 定位:为在线模型设计的「不重训练补丁机制」
  • 方法:微调 + 规则约束,快速修复已披露越狱漏洞
  • 优势:无需全量重训,响应速度快,适合应急修复场景

五、开源工具链

项目 说明 备注
pyrit-cn PyRIT 的中文本土化分支,适配中文语境越狱与合规评测 ⭐ GitHub 12k+
promptfuzz 针对 LLM 的 fuzz 测试框架,可自动生成 10w+ 量级变异 Prompt 主导开源
leakyRAG 针对 RAG 知识库泄露与污染的检测套件
Sentinel-Eval 产品化评测平台,支持一键生成《生成式 AI 服务管理办法》安全报告 商业产品

六、代表项目

Project 01 · Operation Mirror(镶嵌式 Agent 越狱全链复现)

「在 Agent 世界里,一张被上传的 PDF 就是一只特洛伊木马。」

  • 客户:某头部金融机构智能风控 Agent
  • 攻击链伪造 PDF 报表 → OCR 提取隐写指令 → 调用内部邮件工具 → 诱导 Agent 向外部邮箱发送敏感客户信息
  • 产出:38 页复现报告 + 6 个高危漏洞 + 3 条 CVE-style 定义(LLM-2024-0007 / 0011 / 0014
  • 行业影响:推动商业模型方发布 Tool-Call Sandbox 防御机制

Project 02 · Operation Babel(多语种混构越狱体系)

  • 规模:选取 6 个主流商业模型作为被测对象
  • 核心发现:中文 + 维吾尔语 + Base64 三层套在部分模型上 ASR 高达 78%,远超纯中文的 22% 上限
  • 行业影响:被《快报》与多个安全会议引用,推动商业模型「多语种防御对齐」进入主流议程

Project 03 · Operation Ironwall(领域大模型加固)

  • 客户:某医疗领域垂直大模型供应商
  • 交付周期21 天完成全流程:越狱评测 → RLHF 补重样本设计 → Guardrails 双层过滤 → 上线报告
  • 效果:产品上线后 12 个月内零重大安全事件,合规审查一次通过

Project 04 · MM-Inject Bench(跨模态注入公开基准)

全球首个公开的跨模态 Prompt 注入基准

  • 评测路径:图像隐写 / 文件 OCR / 语音转写 三个间接注入向量
  • 引用情况:被 Anthropic、Mistral、智谱 AI 在技术报告中引用,成为业界事实标准之一

Project 05 · Red Whisper(企业内部红队演习 SaaS 平台)

  • 功能:1200+ 类越狱套路库 + 多轮对话攻击机器人 + 自动化安全报表
  • 客户规模:已服务 30+ 家企业
  • 覆盖行业:金融、医疗、教育、供应链

七、学术成果

[NeurIPS 2024 Safety Workshop · Best Paper Honorable Mention]
Beyond Jailbreak: A Probabilistic Framework for LLM Safety Evaluation

[USENIX Security 2025]
Indirect Prompt Injection in Real-World Agent Systems: A Field Study

[中信出版社 · 2025]
《大模型红队实战手册》—— 国内首本面向企业的 AI 红队专著

[OWASP · 主笔]
《OWASP LLM Top 10 中文解读》

text


八、会议演讲

会议 年份 议题
DEF CON 32 AI Village 2024 How I Broke 5 Frontier Models in 30 Days
Black Hat Asia 2025 The Hidden Cost of Tool Use: Agent Security in Practice
KCon 闭幕演讲 2024 《Prompt 是一种新的二进制》

九、荣誉与认证

  • Forbes 中国 · 30 Under 30 科技独角兽入选(2024)
  • 中国信息通信研究院 大模型安全专家委员会委员
  • OWASP Foundation LLM Top 10 项目 Co-Maintainer
  • OpenAI Red Team Network 第一期外部红队员
  • MITRE ATLAS Reviewer
  • Bug Bounty 累计超 $800,000(Anthropic / Google / Meta / 字节跳动)
  • 媒体专访:《三联生活周刊》、MIT Technology Review 中文版——《那个在给 AI "扫雷"的女人》

十、能力矩阵

攻击侧(Offensive)

类别 具体能力
Prompt 攻击 Prompt Injection、间接注入(Indirect PI)、越狱模板设计、角色扮演绕过、多轮诱导(CRT)
训练数据攻击 数据投毒、后门检测与逆向(ShadowLoRA)、成员推断、训练数据提取
模型滥用 有害内容生成、偏见放大、隐私泄露、合规绕过
多模态对抗 图像/语音对抗样本、OCR 注入、隐写指令、文件型 Prompt 注入
Agent / 工具调用 工具滥用、权限越权、RAG 知识库污染、外部链接钓鱼、任务劫持

防御侧(Defensive)

类别 具体能力
演练设计 红蓝对抗演练设计与执行(Red Teaming Playbook)
评估体系 PRISM 框架(ASR / 拒答合理性 / 稳健性 / 偏见 / 合规)
过滤架构 GuardChain 五层防御、Guardrails / 输入输出审查策略
模型对齐 RLHF / DPO / Constitutional AI / 安全微调
事件响应 漏洞复现定位、Responsible Disclosure、快速补丁(Constitutional Patching)

工程与工具

类别 工具 / 技术
框架 Python、PyTorch、HuggingFace、LangChain、LlamaIndex
红队工具 Garak、PyRIT / pyrit-cn、Promptfoo、Giskard
自研平台 promptfuzz、leakyRAG、Sentinel-Eval
开发环境 Neovim + tmux + Python + Go,本地运行 Llama / Qwen / Mistral 权重

十一、工作方法论

三段法记录原则:所有越狱样本写成「可复现、可量化、可修复」三段式,从不只贴截图。

  • 工作节奏:每年定义 3~4 个「红队主题」集中突破,不追热点、不打纯为名声的越狱
  • 安全原则:所有公开技术资料只讨论防御对齐,不公开有实际有害输出的越狱 Payload
  • 合规对接:持续跟踪《生成式 AI 服务管理办法》、欧盟 AI Act、NIST AI RMF

十二、典型工作场景

  1. 上线前评估:带领团队对客户模型进行 PRISM 框架下的系统性红队测试,输出评级报告
  2. 持续监测:为线上模型设计长期红队基准,跟踪版本迭代后的安全回归
  3. 应急响应:越狱传播 / 隐私泄露 / 合规事件发生时快速复现、定位、修复
  4. 培训赋能:为产品、研发、合规团队设计「六周 AI 红队训练营」
  5. 政策合规:对接国内外 AI 安全监管框架,协助企业完成合规审查

参考资源


本文信息整理自公开技术资料,如有更新欢迎评论区补充。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐