Pytorch中DataLoader输出类型问题--“ RuntimeError: Input type (double) and bias type (float) should be the“

夜半罟霖

8549人浏览 · 2023-05-11 10:19:45

夜半罟霖 · 2023-05-11 10:19:45 发布

引言

Pytorch中DataLoader输出精度问题–“ RuntimeError: Input type (double) and bias type (float) should be the same"和“RuntimeError: expected scalar type Double but found Float”来源很简单，在使用DataLoader进行数据集读取后，得到的Batch数据通过神经网络报错RuntimeError: expected scalar type Double but found Float，经查看是因为Pytorch中神经网络的参数默认精度是torch.float32，而送入的测试数据精度是torch.float64导致报错。但实际上笔者并没有显式对输入数据的精度进行调整，只是在Dataset构造时从本地读取了文件，再以此构建了DataLoader类，因此进行了一番排错。经实验发现，这算是Pytoch DataLoader的考虑不周。

代码环境复现

首先我们本地存特征和标签：

from torch import nn
import numpy as np
from torch.utils.data import DataLoader,Dataset

X=np.random.rand(10,3,8,8)
import os
os.makedirs('./test')
np.save(X,'./test/feature.npy')
y=np.random.randint(2,size=(8,))
np.save('./test/label.npy',y)

然后构建相应的DataLoader：

class CustomData(Dataset):
    def __init__(self, data_path, label_path, transform=None):
        super(CustomData,self).__init__()
        self.feature = np.load(data_path)
        self.label = np.load(label_path)
        self.transform = transform
    def __len__(self):
        return self.feature.shape[0]
    def __getitem__(self, item):
        X = self.feature[item]
        y = self.label[item]
        if self.transform:
            X = self.transform(X)
        return X, y
cusData=CustomData('./test/feature.npy','./test/label.npy')
cusDataLoader=DataLoader(cusData)

再抽取一个batch送入模型验证：

model=nn.Conv2d(3,6,3,1,1)
sample=next(iter(cusDataLoader))
res=model(sample[0])

可以看到这时候就会报错：
RuntimeError: Input type (double) and bias type (float) should be the same
如果使用的不是conv2d函数而是直接初始化了Paramter和输入进行相乘，则会发生类似的报错:
“RuntimeError: expected scalar type Double but found Float”

原因

实际上这是因为在DataLoader的输出过程中会自动的对Dataset的item值进行张量转换，把数据的格式由np.array转为torch.Tensor，但这一过程存在着缺陷–即它保持了原有的数据精度不变。如果原来np.array的精度为了float64，转换完成后还是float64，也就与神经网络的默认精度不兼容了。输出前述案例的数据dtype如下：

print(sample[0].dtype)
torch.float64
print(X.dtype)
float64
print(model.weight.dtype)
torch.float32

解决方案如下:

1. Dataset 处理

由于这一Tensor的准换或者说排查过程是在DataLoader类构造时出现的，那么我们在Dataset构造时提前解决精度问题即可。手动对输入数据进行张量化：torch.Tensor(X)默认返回float32精度数据；也可以直接调整np.array精度.
即在Dataset里修改：

class CustomData(Dataset):
    def __init__(self, data_path, label_path, transform=None):
        super(CustomData,self).__init__()
        self.feature = np.load(data_path)
        self.label = np.load(label_path)
        self.transform = transform
    def __len__(self):
        return self.feature.shape[0]
    def __getitem__(self, item):
        X = self.feature[item]
        y = self.label[item]
        if self.transform:
            X = self.transform(X)
        return torch.Tensor(X), y

2. DataLoader处理

也可以在读取batch的时候进行修改，添加额外的处理函数来对数据格式进行检查和转换：

    def _prepare_batch(batch, device=None, non_blocking=False):
        """
        对dataloader每个batch的输出进行进一步的处理
        :param batch: dataloader输出
        :param device:
        :param non_blocking:
        :return:
        """
        device = "cuda:" + str(device)
        x,y = batch
        x=x.float()
        y=y.float().view(-1,1)
        return x,y
        
 x,y=_prepare_batch((sample[0],sample[1]))
 res=model(x)

参考文献

DataLoader does not consider default floating point type

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m