全本地运行的隐私防线:Hx0 数据卫士如何实现浏览器敏感信息与输入防泄漏

1. 引言:两个常被忽视的泄漏入口

日常安全工作中,敏感数据泄漏并不总是来自「被攻破」,更多时候来自 复制粘贴太快前端遗留线索

  • 把日志、配置、接口返回、堆栈直接贴进 AI 对话框时,API Key、数据库连接串、客户手机号、内网地址可能一并送出,且往往 无法撤回
  • 前端页面、外链脚本、HTML 注释、路由片段里,可能残留测试 Token、调试接口、Webhook、内网路径,直到被他人扫描才发现。

企业级 DLP 部署重、成本高;纯手工 grep 又跟不上页面动态加载和 AI 办公节奏。本文介绍我们开源/发布的浏览器扩展 Hx0 数据卫士(Hx0 DataGuard)在 浏览器侧 如何做两件事:

方向 能力 一句话
往外看 页面敏感信息扫描、脚本与 API 路径提取 在授权范围内本地分析当前页 DOM / 脚本 / 请求线索
往里守 输入防泄漏(输入监测 + 粘贴前检查) 在网页输入框、AI 对话框发送前识别并提醒 / 拦截

核心链路:Scan → Detect → Guard → Report(扫描 → 检测 → 防护 → 报告)。下文按 威胁场景 → 技术实现 → 实践配置 → 局限 展开,不涉及商业促销内容。

在这里插入图片描述

项目与安装(按需自取):


2. 威胁模型与工具定位

2.1 工具解决什么、不解决什么

场景 工具做法
AI / 在线文档 / 工单系统误粘贴 Key、连接串、PII 输入与发送前检测,轻提醒 / 居中拦截 / 一键脱敏
授权测试范围内梳理前端暴露面 本地扫描 DOM、注释、脚本,输出命中上下文
外链 JS 中的 API、Webhook、可疑路径 提取路径资产,可选 HTTP 探测(需授权)
扫描结果需交付整改 导出 HTML / Markdown / JSON
不希望检测过程上传整页到云端 默认本地计算与本地存储

明确边界

  • 输出是 线索系统(clues),供人工复核,不能替代 正式渗透测试、代码审计或合规结论;
  • 扫描与 HTTP 探测 仅限 已授权系统、自有资产或靶场;
  • 命中可能是注释诱饵、测试样例或误报,需结合上下文判断。

2.2 与常见方案对比(简要)

方案 优点 局限
企业 DLP / 网关 策略集中、审计完整 部署重、成本高、难覆盖浏览器内 AI 对话框
手工审查 / grep 灵活 跟不上 SPA、动态脚本、粘贴链路
浏览器扩展(本文) 贴近用户操作面、本地优先、开箱即用 受页面权限、CORS、扩展 API 约束

3. 页面扫描:先快出结果,再渐进补全

3.1 扫描流水线

已获得授权 的页面点击扫描后,扩展按预算执行多阶段采集,策略为 「先快出结果,再渐进补全」

  1. 页面快扫:尽快返回 DOM 文本、内联脚本、注释等命中;
  2. 脚本与路径补全:分析外链脚本、SourceMap 线索、路由与请求调用;
  3. 合并报告:写入侧栏同一份任务,展示来源、风险等级、上下文。

主要技术点:

  • 动态 DOM 扫描:采集文本、内联脚本、隐藏注释;短时间窗口监听 DOM 变化,降低异步注入漏报;
  • 脚本与路径资产:外链脚本、SourceMap、路由片段、fetch / XHR 等调用链路上的路径提取;
  • 轻量反混淆:对 Base64 文本、简单拼接、字典式隐藏做预处理后再进规则引擎;
  • 响应头指纹:被动解析 ServerX-Powered-By、内部主机名等泄露线索;
  • 运行时探针:结合 DOM 变化与运行时请求,补静态扫描盲区。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 四种扫描模式(资源预算)

模式 适用场景
快速 超大页面或日常初筛,最小预算
性能 默认:速度、覆盖率、资源占用均衡
兼容 慢站点、内网、不稳定网络,降低并发
全面 尽量多扫脚本与内容,耗时与内存更高

3.3 报告状态语义

状态 含义
complete 预算内任务全部完成
partial 部分外链脚本因权限、CORS、证书、超时、体积被跳过;页面快扫仍有效
failed 核心流程未能完成

常见命中类型(需人工研判):明文密钥 / Token、PII 样例、内网地址、管理或调试接口、Webhook、SourceMap、响应头指纹等。

在这里插入图片描述


4. 输入防泄漏:在「发送」之前介入

4.1 覆盖范围与排除

  • 覆盖:任意网页input / textarea / contenteditable 等输入面(含主流 AI 对话页);
  • 排除:登录 / 注册 等账号密码页,减少对正常认证的干扰。

4.2 双通道检测

弹窗提供两个 独立开关

开关 触发时机 行为
输入与发送监测 输入停顿约 1s;点击发送 / Enter / 表单提交 按强度:右上角提醒或居中拦截
剪切板粘贴监测 Ctrl+V 写入输入框之前 命中后 一律 居中确认(与强度无关)

4.3 拦截强度

强度 规则范围 发送时行为
轻提醒 mainly 高危(身份证、手机号、密钥等) 多为角标提醒,一般不拦
标准(推荐) 高危 + 中危 规则标记为「拦截」的命中 → 居中确认
强拦截 高 / 中 / 低危 较严重命中常在发送时拦截

粘贴命中弹窗支持:一键脱敏(按勾选项替换正文中所有相同敏感串)、仍粘贴原文、取消。动作记入侧栏「输入防泄漏」日志,便于本机复盘。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

4.4 可信站点例外

  • 白名单:域名级长期跳过;
  • 免打扰:当前站点 24 小时内不再提示。

推荐配置:输入监测 + 粘贴监测 + 强度 标准

在这里插入图片描述


5. 规则引擎、去重与侧栏研判

5.1 规则中心

内置类别包括:密钥、令牌、个人信息、网络资产、API/Webhook、AI Key 等;支持自定义正则(含 flags)、分类、风险等级、脱敏替换文案。规则可导入 / 导出,便于团队统一策略。

报告层对 同一规则类型 + 同一原始命中值 去重,避免 HTML 注释、动态节点、多脚本片段重复告警。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.2 侧栏模块划分

模块 用途
总览 任务状态、风险统计、阶段与耗时
页面敏感信息 按规则 / 风险 / 来源浏览命中
JS 泄漏与 API 检测 路径资产、运行时请求、探测结果
规则中心 内置 + 自定义规则管理
输入防泄漏日志 本机拦截 / 脱敏 / 放行记录
设置 扫描模式、强度、白名单等
报告 预览与导出

弹窗适合 开关与发起任务;侧栏适合 筛选、复核、导出


6. API 路径提取与 HTTP 探测(授权场景)

从脚本与运行时请求中提取 URL 后,可在侧栏发起 可选 探测(会产生真实流量):

  1. 单条或批量选择 URL;
  2. 配置 GET/POST、自定义 Header、重定向、Host/Origin 重写;
  3. 查看状态码、最终 URL、响应头片段、耗时、包大小等摘要。

在这里插入图片描述

在这里插入图片描述

务必 仅在书面授权或自有资产范围内使用;探测结果同样是线索,需与业务逻辑交叉验证。


7. 本地优先架构

设计原则:默认不把整页正文上传到开发者自营后台

数据 默认处理方式
页面文本 / 脚本片段 本机扫描与暂存
规则、设置、报告 浏览器扩展本地存储
输入防泄漏日志 本机记录
账号 无需注册;扩展生成本地 用户 ID 用于配置与授权校验绑定

非纯本地 的例外(实现上需知情):用户主动发起的 HTTP 探测、浏览器/商店更新机制、扩展自身的授权校验请求等。

报告导出(HTML / Markdown / JSON)可能含敏感上下文,请按组织规范存储与流转。

在这里插入图片描述


8. 典型实践场景

8.1 AI 对话与在线协作

向 ChatGPT、文心、豆包、Kimi、飞书文档等粘贴日志 / 配置前,用粘贴监测 + 发送拦截降低 Key、连接串、PII 外泄概率;需要继续对话时可先 脱敏 再发送。

8.2 授权渗透 / 红队初筛

流程示例:打开目标页 → 扫描 → 侧栏复核页面敏感信息与 API 资产 → 导出 Markdown 进工单。强调:线索 ≠ 漏洞结论

8.3 开发联调与上线前自查

检查测试环境地址、临时 Token、调试接口、示例数据是否混入生产构建;比上线后被第三方扫到再救火成本更低。

8.4 整改闭环

导出 HTML 归档、Markdown 进项目文档、JSON 进内部流水线,形成「发现 → 研判 → 修复 → 留痕」。


9. 安装与快速验证(工程向)

9.1 Chromium 系(Chrome / Edge / Brave)

商店安装(自动更新):见上文 Chrome 链接。

离线 .crx:扩展管理页 → 开发者模式 → 拖入 Hx0-DataGuard-chrome-*.crx

9.2 Firefox

.xpiabout:addons → 从文件安装;或拖入浏览器窗口。AMO 审核期间可用 Release 离线包。

渠道 地址
Gitee 离线包
GitHub 离线包

9.3 最小验证清单

  1. 固定扩展图标,阅读隐私政策;
  2. 打开测试页,执行「扫描当前页面敏感信息和 API」,观察 complete / partial 状态;
  3. 在 AI 对话框粘贴一段含伪造 Key 的文本,确认粘贴弹窗与脱敏流程;
  4. 导出一份 Markdown 报告,检查去重与上下文是否满足研判需求。

10. 局限性与合规声明

  • 工具输出仅供 辅助研判与安全自检
  • 扫描、探测 禁止 用于未授权系统;
  • 截图与示例数据均为 虚构,不得当作真实泄漏事件;
  • 问题反馈:hx0studio@foxmail.com

11. 小结

Hx0 数据卫士尝试在 不加重运维负担 的前提下,把敏感信息治理推到用户最常操作的两条链路上:页面暴露面输入/粘贴/发送。技术上通过本地规则引擎、渐进式扫描预算、双通道输入监测和可导出报告,把「扫到了什么」和「差点发出什么」变成可复核、可留痕的工程产物。

若你在实践中有更好的规则集、误报处理或 AI 场景适配思路,欢迎 Issue 或邮件交流。
在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐