CIC-IDS数据集特征介绍
1、简介
通信安全机构(CSE)与加拿大网络安全研究所(CIC)合作项目,该项目对自 1998 年以来现有的 11 个数据集的评估表明,大多数数据集(比如经典的 KDDCUP99,NSLKDD 等)已经过时且不可靠。其中一些数据集缺乏流量多样性和容量,一些数据集没有涵盖各种已知的攻击,而另一些数据集将数据包有效载荷数据匿名化,这不能反映当前的趋势。有些还缺少特征集和元数据。
CIC-IDS-2017 数据集包含良性和最新的常见攻击,类似真实世界数据(PCAPs)。
它的数据采集截至 2017 年 7 月 7 日(星期五)下午 5 时,共计 5 天。星期一是正常的一天,只包括正常的流量。实现的攻击包括暴力 FTP、暴力 SSH、DoS、Heartbleed、Web 攻击、渗透、僵尸网络和 DDoS。他们分别于周二、周三、周四和周五上午和下午被执行。
其官方网站为:https://www.unb.ca/cic/datasets/ids-2017.html
关于该数据集的介绍,其有一篇论文,感兴趣的可以去看看:
论文链接:https://www.scitepress.org/Papers/2018/66398/66398.pdf
> 论文对比自 1998 年以来现有的 11 个数据集的优劣、CIC-IDS2017 数据集如何形成(网络部署、攻防步骤等)、使用机器学习算法对该数据集进行测试(有测试结果)以及多个数据集的优劣对比等。
2、下载
直接前往[官网](https://www.unb.ca/cic/datasets/ids-2017.html),最底部有下载按钮:
点击按钮,需要填写注册信息,随意填写就可以,填写完成,就可以看到下载目录:
如上图所示,在目录中,有三类文件,其中 GeneratedLabelledFlows 是完整提取文件,而 MachineLearningCSV 则是在前者基础上进行修剪后的版本,剔除了 IP 和时间戳等不适合机器学习的属性列,如果只是单纯进行机器学习训练,只需要下载后者即可。
除了上面两类文件,还有 Pcaps 文件,这个是纯粹的数据流文件,上面两个文件都在通过该 pcap 文件提取出来的。
3、数据特征
下载完成,其目录格式如下:
```
Destination Port Flow Duration Total Fwd Packets Total Backward Packets Total Length of Fwd Packets Total Length of Bwd Packets Fwd Packet Length Max Fwd Packet Length Min Fwd Packet Length Mean Fwd Packet Length Std Bwd Packet Length Max Bwd Packet Length Min Bwd Packet Length Mean Bwd Packet Length Std Flow Bytes/s Flow Packets/s Flow IAT Mean Flow IAT Std Flow IAT Max Flow IAT Min Fwd IAT Total Fwd IAT Mean Fwd IAT Std Fwd IAT Max Fwd IAT Min Bwd IAT Total Bwd IAT Mean Bwd IAT Std Bwd IAT Max Bwd IAT Min Fwd PSH Flags Bwd PSH Flags Fwd URG Flags Bwd URG Flags Fwd Header Length Bwd Header Length Fwd Packets/s Bwd Packets/s Min Packet Length Max Packet Length Packet Length Mean Packet Length Std Packet Length Variance FIN Flag Count SYN Flag Count RST Flag Count PSH Flag Count ACK Flag Count URG Flag Count CWE Flag Count ECE Flag Count Down/Up Ratio Average Packet Size Avg Fwd Segment Size Avg Bwd Segment Size Fwd Header Length Fwd Avg Bytes/Bulk Fwd Avg Packets/Bulk Fwd Avg Bulk Rate Bwd Avg Bytes/Bulk Bwd Avg Packets/Bulk Bwd Avg Bulk Rate Subflow Fwd Packets Subflow Fwd Bytes Subflow Bwd Packets Subflow Bwd Bytes Init_Win_bytes_forward Init_Win_bytes_backward act_data_pkt_fwd min_seg_size_forward Active Mean Active Std Active Max Active Min Idle Mean Idle Std Idle Max Idle Min Label
```
(1)fl_dur:流持续时间
(2)tot_fw_pk(流出方向?):在正向上包的数量
(3)tot_bw_pk:在反向上包的数量
(4)tot_l_fw_pkt
正向数据包的总大小
(5)fw_pkt_l_max
包在正向上的最大大小
(6)fw_pkt_l_min
包在正向上的最小大小
(7)fw_pkt_l_avg
数据包在正向的平均大小
(8)fw_pkt_l_std
数据包正向标准偏差大小
(9)Bw_pkt_l_max
包在反向上的最大大小
(10)Bw_pkt_l_min
包在反向上的最小大小
(11)Bw_pkt_l_avg
数据包在反向的平均大小
(12)Bw_pkt_l_std
数据包反向标准偏差大小
(13)fl_byt_s
流字节率,即每秒传输的数据包字节数
(14)fl_pkt_s
流包率,即每秒传输的数据包数
(15)fl_iat_avg
两个流之间的平均时间
(16)fl_iat_std
两个流之间标准差
(17)fl_iat_max
两个流之间的最大时间
(18)fl_iat_min
两个流之间的最小时间
(19)fw_iat_tot
在正向发送的两个包之间的总时间
(20)fw_iat_avg
在正向发送的两个包之间的平均时间
(21)fw_iat_std
在正向发送的两个数据包之间的标准偏差时间
(22)fw_iat_max
在正向发送的两个包之间的最大时间
(23)fw_iat_min
在正向发送的两个包之间的最小时间
(24)bw_iat_tot
反向发送的两个包之间的总时间
(25)bw_iat_avg
反向发送的两个数据包之间的平均时间
(26)bw_iat_std
反向发送的两个数据包之间的标准偏差时间
(27)bw_iat_max
反向发送的两个包之间的最大时间
(28)bw_iat_min
反向发送的两个包之间的最小时间
(29)fw_psh_flag
在正向传输的数据包中设置 PSH 标志的次数(UDP 为 0)
(30)bw_psh_flag
在反向传输的数据包中设置 PSH 标志的次数(UDP 为 0)
(31)fw_urg_flag
在正向传输的数据包中设置 URG 标志的次数(UDP 为 0)
(32)bw_urg_flag
反方向数据包中设置 URG 标志的次数(UDP 为 0)
(33)fw_hdr_len
用于前向方向上的包头的总字节数
(34)bw_hdr_len
用于后向方向上的包头的总字节数
(35)fw_pkt_s
每秒前向包的数量
(36)bw_pkt_s
每秒后向包的数量
(37)pkt_len_min
流的最小长度
(38)pkt_len_max
流的最大长度
(39)pkt_len_avg
流的平均长度
(40)pkt_len_std
流长度的方差
(41)pkt_len_va
最小包到达间隔时间
(42)fin_cnt
带有 FIN 的包数量
(43)syn_cnt
带有 SYN 的包数量
(44)rst_cnt
带有 RST 的包数量
(45)pst_cnt
带有 PUSH 的包数量
(46)ack_cnt
带有 ACK 的包数量
(47)urg_cnt
带有 URG 的包数量
(48)cwe_cnt
带有 CWE 的包数量
(49)ECE
带有 ECE 的包数量
(50)down_up_ratio
下载和上传的比例
(51)pkt_size_avg
数据包的平均大小
(52)fw_seg_avg
观察到的前向方向上数据包的平均大小
(53)bw_seg_avg
观察到的后向方向上数据包的平均大小
(54)fw_byt_blk_avg
在正向上的平均字节数块速率
(55)fw_pkt_blk_avg
在正向方向上数据包的平均数量
(56)fw_blk_rate_avg
在正向方向上平均 bulk 速率
(57)bw_byt_blk_avg
在反向上的平均字节数块速率
(58)bw_pkt_blk_avg
在反向方向上数据包的平均数量
(59)bw_blk_rate_avg
在反向方向上平均 bulk 速率
(60)subfl_fw_pk
在正向子流中包的平均数量
(61)subfl_fw_byt
子流在正向中的平均字节数
(62)subfl_bw_pkt
反向子流中数据包的平均数量
(63)subfl_bw_byt
子流在反向中的平均字节数
(64)fw_win_byt
在正向的初始窗口中发送的字节数
(65)bw_win_byt
在反向的初始窗口中发送的字节数
(66)Fw_act_pkt
在正向方向上具有至少 1 字节 TCP 数据有效负载的包
(67)fw_seg_min
在正方向观察到的最小 segment 尺寸
(68)atv_avg
流在空闲之前处于活动状态的平均时间
(69)atv_std
流在空闲之前处于活动状态的标准偏差时间
(70)atv_max
流在空闲之前处于活动状态的最大时间
(71)atv_min
流空闲前激活的最小时间
(72)idl_avg
流在激活之前空闲的平均时间
(73)idl_std
流量在激活前处于空闲状态的标准偏差时间
(74)idl_max
流在激活之前空闲的最大时间
(75)idl_min
流在激活之前空闲的最小时间
更多推荐
所有评论(0)