姿势估计数据集概述

在这里插入图片描述

TXT 文件中每一行的数字按空格分隔,必须严格遵循以下序列逻辑:

[类别ID] [框中心X][框中心Y] [框宽度W] [框高度H] [点1_X] [点1_Y][点1_可见度] [点2_X] [点2_Y] [点2_可见度] ...

  • 第 1 项 类别ID:整数。例如 0 代表人,1 代表狗。
  • 第 2~5 项 边界框 (BBox):物体的外接矩形框的归一化参数 ( c x , c y , w , h ) (cx, cy, w, h) (cx,cy,w,h)
  • 第 6 项及之后 关键点序列 (Keypoints):按每 2 个或 3 个数字为一组循环。通常为 ( x , y , v ) (x, y, v) (x,y,v)
    • x, y:关键点的归一化坐标。
    • v (Visibility, 可见度):通常为 0(未标注/在图外)、1(被遮挡但推测出位置)、2(清晰可见且已标注)。注:部分极简数据集可能没有 v 维度,只保留 x, y。

数据集 YAML 配置文件

除了存放图片和 txt 标签的文件夹,还必须有一个 data.yaml 文件来告诉模型如何读取这些数据。YOLO官网的数据集配置文件如下(关键点检测任务):

# 数据集路径
path: ../datasets/my_pose_dataset
train: images/train
val: images/val

# 姿态估计必填字段
kpt_shape: [17, 3]  # [关键点总数, 每个关键点的维度]。3代表(x,y,v),2代表仅有(x,y)
flip_idx: [0, 2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 12, 11, 14, 13, 16, 15]

# 类别设定
names:
  0: person

# Keypoint names per class
kpt_names:
  0:
    - nose
    - left_eye
    - right_eye
    - left_ear
    - right_ear
    - left_shoulder
    - right_shoulder
    - left_elbow
    - right_elbow
    - left_wrist
    - right_wrist
    - left_hip
    - right_hip
    - left_knee
    - right_knee
    - left_ankle
    - right_ankle

注意点如下:
在这里插入图片描述

Ultralytics 官方支持并内置了多种典型的拓扑结构,你也可以自定义任何点数的数据集:

  • COCO-Pose / COCO8-Pose:人体的标准姿态,17 个关键点。
  • Hand Keypoints:人手部骨架跟踪,21 个关键点。
  • Dog-Pose:针对狗的姿态分析,24 个关键点。
  • Tiger-Pose:针对老虎等野生动物,12 个关键点(且没有可见度维度,所以它的 shape 是 [12, 2])。

参考链接: https://docs.ultralytics.com/zh/datasets/pose/

1. Person 17 (COCO 数据集人体骨架)

目前计算机视觉中最通用的人体姿态估计标准,包含 17 个关键点,主要涵盖五官和四肢关节。
在这里插入图片描述

关键点序号 (Index) 部位名称 (中文) 部位名称 (英文) 说明
0 鼻子 Nose 面部中心基准点
1, 2 左眼, 右眼 L/R Eye 配合鼻子计算面部朝向
3, 4 左耳, 右耳 L/R Ear
5, 6 左肩, 右肩 L/R Shoulder 躯干上部宽度基准
7, 8 左肘, 右肘 L/R Elbow 手臂中段关节
9, 10 左手腕, 右手腕 L/R Wrist 手臂末端
11, 12 左胯/髋, 右胯/髋 L/R Hip 躯干下部/骨盆位置
13, 14 左膝盖, 右膝盖 L/R Knee 腿部中段关节
15, 16 左脚踝, 右脚踝 L/R Ankle 腿部末端

COCO姿态估计示意图:
在这里插入图片描述


2. Hand 21 (手部 21 点骨架)

通常基于 MediaPipe 或 COCO-WholeBody 的标准,精准描绘了手掌和五根手指的全部关节。
在这里插入图片描述

关键点序号 (Index) 部位名称 (中文) 部位名称 (英文) 说明
0 手腕 Wrist (Root) 整个手部拓扑图的根节点
1, 2, 3, 4 拇指关节 Thumb (CMC, MCP, IP, Tip) 从手掌根部到拇指指尖的4个点
5, 6, 7, 8 食指关节 Index Finger (MCP, PIP, DIP, Tip) 从指根关节到食指指尖的4个点
9, 10, 11, 12 中指关节 Middle Finger 同上,中指的4个点
13, 14, 15, 16 无名指关节 Ring Finger 同上,无名指的4个点
17, 18, 19, 20 小指关节 Pinky Finger 同上,小指的4个点

参考链接: https://docs.ultralytics.com/zh/datasets/pose/hand-keypoints/#introduction

在这里插入图片描述

3. Dog 18 (AP-10K 动物/狗骨架)

在这里插入图片描述

在学术界,标准的 AP-10K(泛哺乳动物姿态估计数据集)通常定义了 17个 关键点,也可能是 18 个关键点。通常第18个点增加的是“尾尖 Tail Tip”)。

关键点序号 (Index) 部位名称 (中文) 部位名称 (英文) 说明
0, 1 左眼, 右眼 L/R Eye 动物面部特征
2 鼻子 Nose
3 脖颈/颈后 Neck / Withers 连接头部与躯干的基准
4 尾巴根部 Root of tail 脊椎的末端
5, 6, 7 左前肢 (肩, 肘, 爪) L_Shoulder, L_Elbow, L_Front_Paw 左前腿的三个关节
8, 9, 10 右前肢 (肩, 肘, 爪) R_Shoulder, R_Elbow, R_Front_Paw 右前腿的三个关节
11, 12, 13 左后肢 (髋, 膝, 爪) L_Hip, L_Knee, L_Back_Paw 左后腿的三个关节
14, 15, 16 右后肢 (髋, 膝, 爪) R_Hip, R_Knee, R_Back_Paw 右后腿的三个关节
17 尾巴尖 / 额外点 Tail Tip 尾巴

参考链接: https://github.com/AlexTheBad/AP-10K
在这里插入图片描述
在这里插入图片描述


4. Face 68 (iBUG 300W 人脸 68 关键点)

最经典的人脸对齐(Face Alignment)模型,点位密集地分布在五官边缘。
在这里插入图片描述
在这里插入图片描述

关键点区间 (Index) 部位名称 (中文) 部位名称 (英文) 包含的点数
0 ~ 16 下颌与脸颊轮廓 Jawline / Face Contour 17个点,从左耳根沿着下巴画到右耳根的U型弧线
17 ~ 21 左眉毛 Left Eyebrow 5个点,描绘左眉毛的上边缘走向
22 ~ 26 右眉毛 Right Eyebrow 5个点,描绘右眉毛的上边缘走向
27 ~ 35 鼻子 Nose 9个点,其中27-30为鼻梁,31-35为鼻翼底部的U形
36 ~ 41 左眼 Left Eye 6个点,顺时针描绘左眼的眼角和眼眶
42 ~ 47 右眼 Right Eye 6个点,顺时针描绘右眼的眼角和眼眶
48 ~ 59 嘴唇(外圈) Outer Lip 12个点,描绘嘴巴的外部轮廓边缘
60 ~ 67 嘴唇(内圈) Inner Lip 8个点,描绘嘴唇张开时的内部边缘(区分是否张嘴)
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐