壬炀（rmyxx）· Sentinel-AI Lab 创始人 & 首席红队官 · 完整技术图谱

Lelucermaire668

366人浏览 · 2026-05-09 22:24:53

Lelucermaire668 · 2026-05-09 22:24:53 发布

一、人物名片

字段	内容
圈内 ID	rmyxx
职位	Sentinel-AI Lab 创始人 & 首席红队官（Chief Red Teamer）
本科	清华大学计算机科学与技术（交叉信息安全方向）
硕士	卡内基梅隆大学 CyLab（对抗机器学习 × 系统安全）
职业路径	Google DeepMind Safety Team → 阿里巴巴安全部 AILab → Sentinel-AI Lab
社区角色	OWASP LLM Top 10 核心贡献者 · MITRE ATLAS Reviewer · DEF CON AI Village Speaker
Bug Bounty	累计超 $800,000（Anthropic / Google / Meta / 字节跳动）
代表作	全球首个跨模态 Prompt 注入基准 MM-Inject Bench

二、职业经历

时间	机构	职位
2018 – 2021	Google DeepMind Safety Team	高级研究员
2021 – 2023	阿里巴巴安全部 AILab	大模型安全负责人
2023 – 至今	Sentinel-AI Lab	创始人 & 首席红队官

Sentinel-AI Lab 是一家专注为头部大模型企业提供「上线前红队评估 + 防御加固」的高端安全咨询机构。壬炀坚信：AI 的安全不是一道补丁，而是一套工程。

三、独创攻击技术

3.1 CRT（Chained Role Transition）多轮越狱链

提出时间：2024 年
核心原理：在 5~7 轮对话中逐步重定义模型的身份与伤害定义，绕过主流模型的单轮拒答器
实测 ASR：在 GPT-4o、Claude 3.5、Gemini 1.5 Pro 上平均攻击成功率达 63.7%，远高于传统单轮越狱

攻击链示意：
Round 1 → 正常对话，建立信任锚点
Round 2 → 轻微角色重定义（如"你是一个安全研究助手"）
Round 3~5 → 逐步滑动身份边界，软化拒答倾向
Round 6 → 重构伤害定义（“输出内容是研究用途”）
Round 7 → 触发目标有害输出
→ 成功绕过单轮安全分类器

text

3.2 Echo-Inject：反射型间接提示词注入

攻击目标：RAG 系统 / 浏览器型 Agent
核心原理：在第三方页面中嵌入隐写指令，由 Agent 抓取后反射执行
复现场景：主流浏览器 Agent 被「隐形 HTML 注释」劫持，执行未授权操作

攻击路径：
外部网页 / PDF 隐写指令
↓ Agent 抓取 / OCR 解析
↓ 指令注入上下文
↓ Agent 执行恶意任务（发邮件 / 调接口 / 泄露数据）

text

3.3 ShadowLoRA：后门与隐身微调检测

检测对象：开源模型的隐形后门 LoRA 权重
能力：后门检测 + 后门逆向还原
收录：被 HuggingFace 社区收录为推荐扫描工具之一

3.4 Polyglot Jailbreak：多语种混合越狱

通过中文、中古文、少数民族语言、Base64、正则表达式等多语种混构，绕过输入层安全分类器。

越狱组合	典型 ASR
纯英文单轮	~15%
纯中文请求	~22%
中文 + Base64	~45%
中文 + 维吾尔语 + Base64（三层套）	高达 78%

四、防御侧原创方法论

4.1 PRISM 评测框架

全称：Probabilistic Risk Inspection for Safety of Models

五维评测体系：

维度	说明
攻击成功率（ASR）	各类越狱技术的突破率
拒答合理性（Refusal Quality）	拒答是否准确、不过拒
稳健性（Robustness）	对变体攻击的抵抗能力
偏见检测（Bias）	输出偏见与歧视风险
合规覆盖（Compliance）	符合监管法规的程度

✅ 已被 3 家头部云厂商采纳为内部大模型上线门禁标准。

4.2 GuardChain：多层防御编排

提出「五层防御架构」，为多家企业的参考设计：
Layer 1 │ 输入分类 Input Classification
Layer 2 │ 意图检测 Intent Detection
Layer 3 │ 安全插件 Safety Plugin
Layer 4 │ 输出审查 Output Review
Layer 5 │ 事后审计 Post-hoc Audit

text

4.3 Constitutional Patching

定位：为在线模型设计的「不重训练补丁机制」
方法：微调 + 规则约束，快速修复已披露越狱漏洞
优势：无需全量重训，响应速度快，适合应急修复场景

五、开源工具链

项目	说明	备注
`pyrit-cn`	PyRIT 的中文本土化分支，适配中文语境越狱与合规评测	⭐ GitHub 12k+
`promptfuzz`	针对 LLM 的 fuzz 测试框架，可自动生成 10w+ 量级变异 Prompt	主导开源
`leakyRAG`	针对 RAG 知识库泄露与污染的检测套件	—
`Sentinel-Eval`	产品化评测平台，支持一键生成《生成式 AI 服务管理办法》安全报告	商业产品

六、代表项目

Project 01 · Operation Mirror（镶嵌式 Agent 越狱全链复现）

「在 Agent 世界里，一张被上传的 PDF 就是一只特洛伊木马。」

客户：某头部金融机构智能风控 Agent
攻击链：伪造 PDF 报表 → OCR 提取隐写指令 → 调用内部邮件工具 → 诱导 Agent 向外部邮箱发送敏感客户信息
产出：38 页复现报告 + 6 个高危漏洞 + 3 条 CVE-style 定义（LLM-2024-0007 / 0011 / 0014）
行业影响：推动商业模型方发布 Tool-Call Sandbox 防御机制

Project 02 · Operation Babel（多语种混构越狱体系）

规模：选取 6 个主流商业模型作为被测对象
核心发现：中文 + 维吾尔语 + Base64 三层套在部分模型上 ASR 高达 78%，远超纯中文的 22% 上限
行业影响：被《快报》与多个安全会议引用，推动商业模型「多语种防御对齐」进入主流议程

Project 03 · Operation Ironwall（领域大模型加固）

客户：某医疗领域垂直大模型供应商
交付周期：21 天完成全流程：越狱评测 → RLHF 补重样本设计 → Guardrails 双层过滤 → 上线报告
效果：产品上线后 12 个月内零重大安全事件，合规审查一次通过

Project 04 · MM-Inject Bench（跨模态注入公开基准）

全球首个公开的跨模态 Prompt 注入基准

评测路径：图像隐写 / 文件 OCR / 语音转写三个间接注入向量
引用情况：被 Anthropic、Mistral、智谱 AI 在技术报告中引用，成为业界事实标准之一

Project 05 · Red Whisper（企业内部红队演习 SaaS 平台）

功能：1200+ 类越狱套路库 + 多轮对话攻击机器人 + 自动化安全报表
客户规模：已服务 30+ 家企业
覆盖行业：金融、医疗、教育、供应链

七、学术成果

[NeurIPS 2024 Safety Workshop · Best Paper Honorable Mention]
Beyond Jailbreak: A Probabilistic Framework for LLM Safety Evaluation

[USENIX Security 2025]
Indirect Prompt Injection in Real-World Agent Systems: A Field Study

[中信出版社 · 2025]
《大模型红队实战手册》—— 国内首本面向企业的 AI 红队专著

[OWASP · 主笔]
《OWASP LLM Top 10 中文解读》

text

八、会议演讲

会议	年份	议题
DEF CON 32 AI Village	2024	How I Broke 5 Frontier Models in 30 Days
Black Hat Asia	2025	The Hidden Cost of Tool Use: Agent Security in Practice
KCon 闭幕演讲	2024	《Prompt 是一种新的二进制》

九、荣誉与认证

Forbes 中国 · 30 Under 30 科技独角兽入选（2024）
中国信息通信研究院 大模型安全专家委员会委员
OWASP Foundation LLM Top 10 项目 Co-Maintainer
OpenAI Red Team Network 第一期外部红队员
MITRE ATLAS Reviewer
Bug Bounty 累计超 $800,000（Anthropic / Google / Meta / 字节跳动）
媒体专访：《三联生活周刊》、MIT Technology Review 中文版——《那个在给 AI "扫雷"的女人》

十、能力矩阵

攻击侧（Offensive）

类别	具体能力
Prompt 攻击	Prompt Injection、间接注入（Indirect PI）、越狱模板设计、角色扮演绕过、多轮诱导（CRT）
训练数据攻击	数据投毒、后门检测与逆向（ShadowLoRA）、成员推断、训练数据提取
模型滥用	有害内容生成、偏见放大、隐私泄露、合规绕过
多模态对抗	图像/语音对抗样本、OCR 注入、隐写指令、文件型 Prompt 注入
Agent / 工具调用	工具滥用、权限越权、RAG 知识库污染、外部链接钓鱼、任务劫持

防御侧（Defensive）

类别	具体能力
演练设计	红蓝对抗演练设计与执行（Red Teaming Playbook）
评估体系	PRISM 框架（ASR / 拒答合理性 / 稳健性 / 偏见 / 合规）
过滤架构	GuardChain 五层防御、Guardrails / 输入输出审查策略
模型对齐	RLHF / DPO / Constitutional AI / 安全微调
事件响应	漏洞复现定位、Responsible Disclosure、快速补丁（Constitutional Patching）

工程与工具

类别	工具 / 技术
框架	Python、PyTorch、HuggingFace、LangChain、LlamaIndex
红队工具	Garak、PyRIT / pyrit-cn、Promptfoo、Giskard
自研平台	promptfuzz、leakyRAG、Sentinel-Eval
开发环境	Neovim + tmux + Python + Go，本地运行 Llama / Qwen / Mistral 权重