车牌检测与人脸检测常用数据集

——CBLPRD、CCPD、CRPD 与 WIDER FACE 对比解析

一、背景说明

智能交通(ITS)智慧安防 场景中,
车牌检测 / 识别(LPR)人脸检测(Face Detection) 是两个最基础、也是最关键的视觉任务。

数据集质量直接决定了模型的上限:

  • 是否覆盖真实复杂场景
  • 是否存在足够的尺度、角度、光照变化
  • 标注是否规范,是否便于工程化落地

二、CBLPRD 数据集(车牌识别为主)

1. 数据集概述

  • 全称:China Balanced License Plate Recognition Dataset
  • 数据规模:约 33 万张车牌图像
  • 发布形式:GitHub 社区开源
  • 定位:车牌识别(OCR / LPR)数据集

CBLPRD 的核心目标并不是“车牌检测”,而是 车牌字符识别阶段的数据均衡问题


2. 数据特点

  • 裁剪后的车牌图像 为主

  • 覆盖多种车牌类型:

    • 普通蓝牌
    • 黄牌
    • 新能源绿牌
    • 单层 / 双层车牌
  • 样本分布较为均衡,部分数据通过 GAN 合成 进行增强


3. 图像尺寸

  • 无统一固定尺寸

  • 多为已经裁剪好的车牌区域

  • 常见尺寸集中在:

    • 宽高比接近车牌真实比例(如 94×24、168×48 等)

4. 工程使用建议

  • 不适合做车牌检测训练

  • 非常适合:

    • CRNN / Transformer 类 OCR 模型
    • 车牌字符分类、序列识别
  • 通常作为:

    CCPD / CRPD 检测 → 裁剪 → CBLPRD 识别训练


三、CCPD 系列数据集(车牌检测领域的“标准数据集”)

1. 数据集背景

  • 全称:Chinese City Parking Dataset
  • 发布单位:中国科学技术大学
  • 最早发表于 ECCV 2018
  • 国内最常用的车牌检测 + 识别数据集

2. 版本划分

版本 主要内容
CCPD-2019 普通蓝牌
CCPD-2020 新能源绿牌
CCPD-2021 社区非官方整理版本

工程中通常将 2019 + 2020 合并使用


3. 数据规模与子集

整体规模 30 万级别,并按难度拆分为多个子集:

  • Base(基础)
  • Blur(运动模糊)
  • DB(过暗 / 过亮)
  • Rotate(旋转)
  • Tilt(倾斜)
  • FN(远距离)
  • Challenge(综合)

4. 图像尺寸

  • 统一分辨率:720 × 1160
  • 三通道 RGB
  • 每张图像 只包含一个车牌

这一点对检测模型非常友好。


5. 标注方式

  • 边界框(BBox)
  • 车牌字符信息直接编码在文件名中
  • 省份 / 字母 / 数字完整可解析

6. 工程评价

优点

  • 标注规范
  • 尺寸统一
  • 易于快速训练检测模型

不足

  • 场景相对“干净”
  • 与真实道路监控仍存在一定域差异

四、CRPD 数据集(更贴近真实道路场景)

1. 数据集背景

  • 全称:Chinese Road Plate Dataset
  • 发布年份:2022
  • 数据来源:真实道路监控、路口摄像头

CRPD 的提出,核心就是为了解决 CCPD “过于理想化” 的问题。


2. 数据集结构

CRPD 按每张图像中车牌数量划分:

  • CRPD-Single:1 个车牌
  • CRPD-Double:2 个车牌
  • CRPD-Multi:多个车牌

这在工程中非常关键。


3. 图像尺寸

  • 原始尺寸不统一

  • 多为高分辨率道路监控图像

  • 实验中常 resize 到:

    • 640×640
    • 1280×1280

4. 标注方式

  • 车牌 四点坐标(旋转框)
  • 车牌类型
  • 车牌内容

相比 CCPD,标注信息更完整,也更复杂。


5. 工程评价

维度 CCPD CRPD
场景真实性
多车牌
标注复杂度
工程难度 中高

CRPD 非常适合:

  • 多目标车牌检测
  • 真实道路部署前的模型增强训练

五、WIDER FACE 数据集(人脸检测领域基准)

1. 数据集背景

  • 发布单位:香港中文大学(CUHK)
  • 发布年份:2016
  • 人脸检测领域事实标准数据集

2. 数据规模

  • 图像数量:32,203
  • 人脸标注数:约 39 万
  • 覆盖事件类型:61 类

3. 图像尺寸

  • 完全不固定
  • 从低分辨率到超高分辨率均有
  • 人脸尺度跨度极大(10px ~ 数百像素)

4. 标注信息

  • 人脸边界框
  • 模糊 / 遮挡 / 姿态 / 表情等属性

5. 工程意义

  • 小目标检测能力的“试金石”

  • 若模型能在 WIDER FACE Hard 集表现良好:

    • 通常对车牌远距离检测也有正向迁移效果

六、总结

数据集 核心用途
CBLPRD 车牌字符识别
CCPD 车牌检测基础训练
CRPD 真实道路多车牌检测
WIDER FACE 小目标 / 人脸检测基准

合理的数据集组合,往往比模型结构微调更重要。


Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐