PyTorch学习笔记（4）--DataLoader的使用

我这一次

120256人浏览 · 2021-08-15 23:06:20

我这一次 · 2021-08-15 23:06:20 发布

PyTorch学习笔记（4）–DataLoader的使用

本博文是PyTorch的学习笔记，第4次内容记录，主要介绍DataLoader的基本使用。

1.Dataset和DataLoader的区别

torch.utils.data.Dataset是代表这一数据的抽象类（也就是基类）。我们可以通过继承和重写这个抽象类实现自己的数据类，只需要定义__len__和__getitem__这个两个函数。
DataLoader是Pytorch中用来处理模型输入数据的一个工具类。组合了数据集（dataset） + 采样器(sampler)，并在数据集上提供单线程或多线程(num_workers )的可迭代对象。在DataLoader中有多个参数，这些参数中重要的几个参数的含义说明如下：

 1. epoch：所有的训练样本输入到模型中称为一个epoch； 
 2. iteration：一批样本输入到模型中，成为一个Iteration;
 3. batchszie：批大小，决定一个epoch有多少个Iteration；
 4. 迭代次数（iteration）=样本总数（epoch）/批尺寸（batchszie）
 5. dataset (Dataset) – 决定数据从哪读取或者从何读取；
 6. batch_size (python:int, optional) – 批尺寸(每次训练样本个数,默认为１）
 7. shuffle (bool, optional) –每一个 epoch是否为乱序 (default: False)；
 8. num_workers (python:int, optional) – 是否多进程读取数据（默认为０);
 9. drop_last (bool, optional) – 当样本数不能被batchsize整除时，最后一批数据是否舍弃（default: False)
 10. pin_memory（bool, optional) - 如果为True会将数据放置到GPU上去（默认为false）

详情可以参照这个博客：Dataset和Dataloader的理解。
由于tensorvision中自带了很多数据集，对于练手和神经网络的训练都十分有利，因此需要用Dataset和DataLoader来帮助我们学习。

2.DataLoader的使用

2.1DataLoader的基础使用

通过查看PyTorch官网中关于DataLoader类的介绍，所以这里以CIFAR10数据集的使用为例子，简单介绍DataLoader的使用。
在这里插入图片描述
（1）查看数据集CIFAR10中第1张图片的基本信息，代码如下：

# coding ：UTF-8
# 文件功能： 代码实现dataloader类的基本功能
# 开发人员： dpp
# 开发时间： 2021/8/13 12:10 上午
# 文件名称： dataloader_test.py.py
# 开发工具： PyCharm
import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

# 准备的测试数据集  数据放在了CIFAR10文件夹下

test_data = torchvision.datasets.CIFAR10("./CIFAR10", train=False, transform=torchvision.transforms.ToTensor())
test_loader = DataLoader(dataset=test_data, batch_size=4, shuffle=True, num_workers=0, drop_last=False)

# 测试数据集中第一张图片及target
img, target = test_data[0]
print(img.shape)
print(target)

上述代码输出结果如下，展示的是读取到的CIFAR10中第一张照片的形状信息和类别target信息。
在这里插入图片描述
（2）batch_size=4对数据读取的作用，表示一次性读取数据集中的4张图片，并且集合在一起进行返回，代码如下：

# coding ：UTF-8
# 文件功能： 代码实现dataloader类的基本功能
# 开发人员： dpp
# 开发时间： 2021/8/13 12:10 上午
# 文件名称： dataloader_test.py.py
# 开发工具： PyCharm
import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

# 准备的测试数据集  数据放在了CIFAR10文件夹下

test_data = torchvision.datasets.CIFAR10("./CIFAR10", train=False, transform=torchvision.transforms.ToTensor())
test_loader = DataLoader(dataset=test_data, batch_size=4, shuffle=True, num_workers=0, drop_last=False)

# 测试数据集中第一张图片及target
img, target = test_data[0]
print(img.shape)
print(target)

# 在定义test_loader时，设置了batch_size=4，表示一次性从数据集中取出4个数据
for data in test_loader:
    imgs, targets = data
    print(imgs.shape)
    print(targets)

上述代码输出结果如下，展示的是batch_size=4时返回的结果。
在这里插入图片描述
（3）将epoch设置为2时，对数据集进行两次完整的遍历加载，同时设置batch_size=4，代码如下：

# coding ：UTF-8
# 文件功能： 代码实现dataloader类的基本功能
# 开发人员： dpp
# 开发时间： 2021/8/13 12:10 上午
# 文件名称： dataloader_test.py.py
# 开发工具： PyCharm
import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

# 准备的测试数据集  数据放在了CIFAR10文件夹下

test_data = torchvision.datasets.CIFAR10("./CIFAR10", train=False, transform=torchvision.transforms.ToTensor())
test_loader = DataLoader(dataset=test_data, batch_size=4, shuffle=True, num_workers=0, drop_last=False)

# 在定义test_loader时，设置了batch_size=4，表示一次性从数据集中取出4个数据
writer = SummaryWriter("logs")
for epoch in range(2):
    step = 0
    for data in test_loader:
        imgs, targets = data
        writer.add_images("Epoch: {}".format(epoch), imgs, step)
        step = step + 1
writer.close()

此时借助Tensorboard，对代码效果进行展示，得到如下的结果：
在这里插入图片描述
从Tensorboard中的运行结果可知，设置参数batch_size=4时，每次取了4张照片，并获得4个targets标签。将DataLoader()函数用图示如下：

（4）shuffle=True对数据读取的作用，每个epoch读完数据之后，在下次读取数据时是否会将数据打乱顺序，如果设置shuffle=True，那么在下一次epoch时，会将数据打乱顺序，然后再进行下一次读取，从而两次epoch读到的数据顺序是不同的；如果设置shuffle=False，那么在下一次数据读取时，不会打乱数据的顺序，从而两次读取到的数据顺序是相同的。

3.学习小结

在本文中总结了DataLoader的使用方法，并通过读取CIFAR10中的数据，借助Tensorboard的展示各种参数的功能，能为后续神经网络的训练奠定基础，同时也能更好的理解pytorch。

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m