端侧YOLO + 端侧CLIP + 云端CLIP（AI Mission Cloud）：云－边－端协同语义感知与任务系统架构

moonsims

307人浏览 · 2026-05-06 09:38:02

moonsims · 2026-05-06 09:38:02 发布

端侧YOLO + 端侧CLIP + 云端CLIP（AI Mission Cloud）：云－边－端协同语义感知与任务系统架构

通过端侧 YOLO 的实时感知与 CLIP 的语义编码，将复杂视频流转化为结构化语义数据；AI Mission Cloud 在云端完成跨设备、跨时间的语义推理与任务编排，让无人系统具备可扩展、可协作、可演进的 AI 能力。

数据流拆解

🔁 数据流分为 两条平行通道

① 控制面（云 → 端）【低频】

特点：

不实时
可热更新
不依赖视频流
决定“你关心什么”

② 数据面（端 → 云）【高频 / 但已过滤】

特点：

实时
强过滤
降带宽
降误报

YOLO / CLIP / Cloud 的边界

模块	只做什么	不做什么
YOLO	看见目标	不理解语义
CLIP	语义相似度	不做规则
Cloud	定义语义与任务	不跑实时视频

云端 CLIP 的核心职责之一，就是“文本 → 语义向量”的统一语义定义中心
端侧如果做语义过滤，必须使用“已经在云端定义好的文本向量”
端侧一般不“自由理解语义”，而是做“向量相似度判断”
端侧不做语义筛选，并不是“不能算”，而是“不可控、不稳定、不可演化”

语义“定义权”在云端，语义“执行权”可以在端侧

CLIP 本质

把「图像」和「文本」映射到同一个语义向量空间

两个 Encoder：

模块	输入	输出
Image Encoder	图片 / ROI	图像向量（Embedding）
Text Encoder	文本 prompt	文本向量（Embedding）

目标只有一个：

“相关的图文 → 向量距离近，不相关 → 距离远”

云端 CLIP 的核心职责

1️⃣ 语义词表的“向量化定义中心”

云端 CLIP 负责：

这一步建议在云端完成

原因：

文本 prompt 的措辞极其敏感
“person / worker / staff / pedestrian”向量差异很大
需要不断调整、试验、验证

所以云端负责：

设计 prompt
调优 prompt
训练 LoRA（如果需要）
产出 “标准文本语义向量”

2️⃣ 复杂语义组合 & 策略逻辑

云端可以做的，而端侧不适合做的：

语义组合
- person AND railway
- vehicle BUT NOT authorized
规则版本管理
多模型 ensemble
历史统计 / 误报分析

云端是“语义决策层”

3️⃣ LoRA 训练与语义扩展

“CLIP 对某个行业语义不稳定 / 不敏感”

例如：

穿工装的矿工
港口地勤
军用特种车辆

云端负责：

采集数据
基于 CLIP 做 LoRA 轻量微调
生成 行业增强版 CLIP

去重（Deduplication）与 CLIP 的关系

去重的三种层级

① 目标级（Bounding Box）-YOLO 层面

IoU
Track ID
SORT / ByteTrack

② 外观级（Embedding 去重）-端侧CLIP

同一人反复出现？
同一车辆不同角度？

计算 CLIP image embedding
cosine similarity > 阈值 → 认为是同一实体

③ 语义级（事件去重）-云端CLIP

同一人多次进入危险区

时间窗口
语义标签
空间关系

事件层去重，云端完成

NPU-6T(YOLO)+26T(CLIP)

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

零基础部署 OpenClaw 2.6.4 实现本地 AI 自动化

AtomGit开源社区

AI 写前端总像模板？教你用 5 个 Claude Skill 搭一套出海 SaaS 的设计 SOP

我在国内一家做出海产品的团队当前端工程师。TonesMatch。整套前端——landing page、定价页、用户 dashboard、移动端响应式——基本都是用 AI 提效完成的。AI 写代码已经不算难了，真正卡我们的反而是"AI 不会做对的设计"。让 AI 生成 SaaS 首页，每次出来都像同一个 Bootstrap 模板；AI 给出的页面"看起来对"，但移动端、合规审核、真实数据一接进来就翻