【python】pandas读取csv格式数据时header参数设置

青灯照颦微

99261人浏览 · 2019-06-20 16:07:53

青灯照颦微 · 2019-06-20 16:07:53 发布

写在前面

使用pandas中read_csv读取csv数据时，对于有表头的数据，将header设置为空(None)，会报错：pandas_libs\parsers.pyx in pandas._libs.parsers.raise_parser_error() ParserError: Error tokenizing data. C error: Expected 4 fields in line 2, saw 5 。

查看pandas官方文档发现，read_csv读取时会自动识别表头，数据有表头时不能设置header为空（默认读取第一行，即header=0)；数据无表头时，若不设置header，第一行数据会被视为表头，应传入names参数设置表头名称或设置header=None。

参考文档

这是pandas的read_csv的官方文档: python - pandas.read_csv

read_csv的header参数

使用pandas的read_csv读取数据时，header参数表头名称设置(即各列数据对应名称)，下面是文档中对header参数的说明：
header参数说明
其中指出，表头可根据数据格式推断各列名称：默认情况下，

若未传入names参数，则根据输入文件的第一行推断是否有表头；
若传入names参数，则names传入的参数作为表头（原数据有表头则会替换原有表头）。

下面是对read_csv的header参数测试

header参数测试

测试数据

两个csv(用逗号隔开)格式的文件，这里是用Excel打开，分别是带有表头和不带表头的数据：
带有表头数据

默认header

下面是header默认情况下，对有表头的数据识别第一行作为header（即header=0）[ 数据没有给出index名称，这里设置 index_col=False，不设置默认第一列为index（而表头仍是4列，最后一列数据为NaN）， index_col参数与 header类似可自动识别。
在这里插入图片描述

设置header=None

对有表头的数据设置 header=None则会报错：
在这里插入图片描述

对无表头的数据，则需设置 header=None，否则第一行数据被作为表头：
在这里插入图片描述

思考

pandas是如何识别或区分数据和表头名称的？
- 对于index_col来说，若数据都是相同类型，比如数值型，则表示无index，输出默认index为0,1,2,…；若数据第一列为字符，其他列为数值，则会将第一列视为index；若设置index_col=False, 则表示无index（默认将0, 1, 2,…作为数据的index)
- 对header，当第一行为字符，则第一行默认为表头；当第一行与其他数据类型相同时，也会把第一行当作表头，所以无表头时应设置header=None
header传入list参数(元素代表取对应行号)怎么用？

read_csv的参数skip_blank_lines=True会忽略注释行和空行，其中注释行是用什么符号注释的？

pandas.read_csv(myfile, sep='\t', comment='#', skip_blank_lines=True)  # 可注释掉"#"起始的行和空行，默认是跳过空行的
pandas.read_csv(myfile, sep='\t', comment='##', skip_blank_lines=True) # 报错，注释字符只能是一个？

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m