【AI学习】SynthSoM数据集

bylander

469人浏览 · 2026-05-19 15:53:47

bylander · 2026-05-19 15:53:47 发布

Q：SynthSoM是一个什么样的数据集

在这里插入图片描述

SynthSoM 是一个合成多模态感知-通信数据集，具体信息如下：

基本信息

属性	内容
全称	Synthetic dataset for Synesthesia of Machines
来源	程翔等人，发表于 Scientific Data, 2025年5月
场景	密集建筑场景（Dense building scenario）
性质	合成/仿真数据集（非实测）
用途	用于WiFo-M²的预训练和测试

在论文中的使用

预训练数据集（Table I）

数据集ID	天线配置	带宽(GHz)	子载波数	样本数
B1	16×16	0.05	256	9,080
B2	16×8	0.05	512	16,784
B3	8×8	0.05	512	14,816
B4	8×4	0.1	512	18,824
B5	4×4	0.1	1024	38,064

载波频率: 4.95 GHz（Sub-6GHz频段）
特点: 样本量较大（B5达38,064个样本），配置多样化

测试数据集（Table II）

数据集ID	说明
L1-L4	已见场景测试（来自预训练相同链路）

数据内容

根据论文图6，SynthSoM包含：

RGB图像：城市街道、建筑、车辆等视觉场景
LiDAR点云：三维点云数据，反映建筑几何结构
CSI数据：基站与用户间的信道状态信息

衍生数据集

论文还提到了 SynthSoM-Twin [29]：

用于跨场景泛化测试（未见场景）
场景: 校园环境（Campus scenario）
载波频率: 5.9 GHz
用于构建测试数据集 C1

[29] J. Chen et al., “SynthSoM-Twin: A Multi-Modal Sensing-Communication Digital-Twin Dataset for Sim2Real Transfer via Synesthesia of Machines,” arXiv:2511.11503, 2025.

与M3SC的对比

对比项	M3SC [26]	SynthSoM [27]
数据性质	仿真/实测混合	纯合成/仿真
场景	交叉路口交通	密集城市建筑
载波频率	28 GHz（毫米波）	4.95 GHz（Sub-6G）
发表期刊	China Communications (2023)	Scientific Data (2025)
视觉特点	道路、车辆、交通信号灯	高楼、街道、城市峡谷

参考文献

[27] X. Cheng et al., “SynthSoM: A synthetic intelligent multi-modal sensing-communication dataset for Synesthesia of Machines (SoM),” Sci. Data, vol. 12, May. 2025.

一句话总结

SynthSoM是一个面向密集城市建筑场景的多模态感知-通信合成数据集，包含RGB图像、LiDAR点云和CSI数据，覆盖Sub-6GHz频段和多种天线配置，与M3SC共同构成WiFo-M²的大规模预训练数据基础，并支持跨频段、跨场景的泛化能力验证。

这是一个很好的问题。作为合成数据集，SynthSoM的RGB图像和LiDAR点云并非来自真实世界的物理采集，而是通过仿真平台/数字孪生环境生成的。具体实现方式如下：

Q：SynthSoM 是一个合成数据集，非实测，其中的RGB图像信息和雷达点云信息如果不实测，如何获得？

合成数据的生成途径

1. 基于通信仿真平台的环境建模

典型的做法是利用射线追踪(Ray Tracing)与3D场景重建相结合：

步骤	说明
3D场景构建	使用Blender、Unreal Engine、Unity等工具，或从OpenStreetMap、CityGML等来源构建城市建筑、街道、车辆的3D模型
电磁仿真	在3D场景中布置基站和用户的地理位置，使用射线追踪算法（如Wireless InSite、Remcom）模拟信号传播路径
同步渲染	根据射线追踪中的收发机位置、障碍物信息，渲染对应的"虚拟摄像头视角"RGB图像和"虚拟LiDAR扫描"点云

2. 具体技术实现（基于论文推断）

论文中提到的相关技术线索：

SynthSoM-Twin [29] 明确标注为 “Digital-Twin Dataset for Sim2Real Transfer”

这表明SynthSoM系列采用了数字孪生范式：

数字孪生流程:
真实城市环境/地图数据 → 3D建模 → 虚拟场景
                                    ↓
虚拟基站 + 虚拟用户车辆 ← 射线追踪 → 信道脉冲响应(CIR)/CSI
      ↓                                    ↓
虚拟传感器渲染 ←────────────┘
   (相机视角图像 + LiDAR点云)

3. 虚拟传感器渲染细节

模态	合成方式
RGB图像	在3D场景中放置虚拟相机，设置内参（焦距、主点）和外参（位置、朝向），使用渲染引擎（如UE5的光线追踪渲染）生成逼真图像
LiDAR点云	模拟激光雷达扫描原理：从虚拟LiDAR位置发射射线，检测与3D模型的交点，记录交点坐标和反射强度，生成点云数据

4. 关键优势：天然同步与标注

合成数据的核心价值在于完美同步和自动标注：

特性	实测数据集的挑战	合成数据集的优势
时空对齐	需要硬件同步触发，存在抖动	虚拟传感器共享统一时钟，精确对齐
标注成本	需要人工标注或复杂算法推断	自动生成：物体边界框、语义标签、深度图、射线追踪路径
信道真值	无法获取完美信道真值	射线追踪直接输出ground-truth CSI
场景可控性	受限于真实环境	可任意修改建筑布局、车辆轨迹、天气光照

与实测数据集的对比

论文中提到的DeepSense-6G [31] 就是实测数据集的代表：

对比项	SynthSoM (合成)	DeepSense-6G (实测)
图像/LiDAR来源	3D渲染引擎生成	真实相机、真实LiDAR采集
CSI来源	射线追踪仿真	实际射频测量
场景	虚拟城市/校园	真实校园/街道
论文中用途	预训练（大规模数据）	零样本泛化测试（S1数据集）
挑战	Sim2Real gap（仿真到真实域差距）	标注困难、场景受限、成本高