python学习——pandas库的使用之series及DataFrame创建、查看、切片、运算

潇洒白羊

5868人浏览 · 2023-03-29 11:41:53

潇洒白羊 · 2023-03-29 11:41:53 发布

pandas学习目录

pandas

pandas

Pandas是基于NumPy的数据分析模块
Pandas纳入了大量库和一些标准的数据模型，提供了高效操作大型数据集所需的工具
Pandas提供了大量能使我们快速便捷处理数据的函数和方法
Pandas的数据结构
- Series：带标签的一维数组，与Numpy中的一维array类似。与列表也很相近。
  区别是：列表中的元素可以是不同的数据类型，而array和Series中则只允许存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。
- Time-Series：以时间为索引的Series,特殊的一类Series
- DataFrame：带标签的二维的表格型数据结构，可以将DataFrame理
  解为Series的容器
- Panel：带标签的三维的数组，可以理解为DataFrame的容器

1 Series（序列）

Series（序列）是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成
Series的字符串表现形式为：索引在左边，值在右边。如果没有为数据指定索引，会自动创建一个0到N-1(N为数据的长度）的整数型索引

1.1 基本概念

在这里插入图片描述

1.1.1 索引 ser[‘a’]、ser.a、ser[0]、ser.get(‘a’)

from pandas import Series,DataFrame
s=Series([1,2,3,4],index=['a','b','c','d']) #指定索引，显式索引
#索引，获取单个值
s['b']
s.b
s.get('b')
s[1]

在这里插入图片描述

s=Series([3,4,5,6],index=['a','a','b','b']) #索引可以重复，但是尽量不要这样做
s

在这里插入图片描述

1.1.2 切片

切片不会改变序列数据类型

1.1.2.1 基于标签切片的时候，切片区间全闭

在这里插入图片描述

1.1.2.2 基于位置的切片语法切片区间左闭右开

在这里插入图片描述

1.1.3 选择和过滤

1.1.3.1 直接通过Series进行比较

在这里插入图片描述

1.1.3.2 通过Series.index 或者 Series.values进行比较

在这里插入图片描述

1.2 序列创建

数据（序列、数组、字典、标量）、索引、名字

1.2.1 列表，元组(一维)

在这里插入图片描述

1.2.2 标量

s1=Series(5,index=['a','b','c','d']) #标量，自动重复以匹配索引长度
s1

在这里插入图片描述

1.2.3 数组

s1=Series(np.arange(1,5),index=['a','b','c','d']) #数组
s1

在这里插入图片描述

1.2.4 字典

dict1={'a':1,'b':3,'c':5,'d':8}
s1=Series(dict1)  #不指定索引，默认以字典的key作为索引，字典值作为值
s1

在这里插入图片描述

1.3 序列、索引名字及属性

1.3.1 序列的名字和索引名字

在这里插入图片描述

1.3.2 序列的属性

ser2.name  #名字
ser2.values	#数据
ser2.index  #索引  
ser2.dtype 	 #series的数据类型

在这里插入图片描述

1.4 序列的运算

1.4.1 序列运算保留索引

在这里插入图片描述

1.4.2 序列运算，索引自动对齐

在这里插入图片描述

2 DataFrame

DataFrame可以看成是以Series组成的字典。它和Series的区别在于，不但具有行索引，且具有列索引
DataFrame是二维数据结构，即数据以行和列的表格方式排列

2.1 构建DataFrame

2.1.1 二维列表创建

通过二维列表，二维元组直接创建，默认行列索引

data1=[[1, 2, 3],[4, 5, 6],[7, 8, 9]] #二维列表创建,二维元组
d1=DataFrame(data1) #默认行索引和列索引
d1

在这里插入图片描述

创建dataframe后添加行索引和列索引

d1.index=['a','b','c']    #创建dataframe后添加行索引和列索引
d1.columns=['one','two','three']
d1

在这里插入图片描述

创建dataframe的时候加上行索引和列索引

data1=[[1, 2, 3],[4, 5, 6],[7, 8, 9]] #二维列表创建,二维元组
d1=DataFrame(data1,index=['a','b','c'],columns=['one','two','three'])#创建的时候加上行索引和列索引
d1

在这里插入图片描述

2.1.2 二维数组创建

创建dataframe时，默认行列索引

df2=DataFrame(np.arange(16).reshape(4,4)) #数组转换为dataframe
df2

在这里插入图片描述

创建dataframe时，添加行列索引名

在这里插入图片描述

2.1.3 等长列表、元组、数组、序列组成的字典创建

等长列表组成的字典

data1={'a':[1,2,3],'b':[4,5,6]} #把key抽出形成columns
DataFrame(data1)

在这里插入图片描述

等长元组组成的字典

在这里插入图片描述

等长数组组成的字典

在这里插入图片描述

等长序列组成的字典

在这里插入图片描述

2.1.4 字典组成的字典创建

dist_dict={'shanghai':{2015:10,2016:11,2018:12},'beijing':{2015:102,2016:103,2017:109}}
DataFrame(dist_dict)  #外层的key形成columns，里层的key成为index

在这里插入图片描述

2.1.5 字典的列表创建

data = [{'a': 1, 'b': 2,'d':3}, {'a': 10, 'b': 20, 'c': 30}]
DataFrame(data)

在这里插入图片描述

2.1.6 Series 创建DataFrame

data2 = [Series([1, 2],index=['a','b']),Series([1,2],index=['a','c'])]
DataFrame(data2)

在这里插入图片描述

2.2 二维结构数据转换

二维列表、二维数组、矩阵、dataframe之间互相转换

	二维列表	二维数组	矩阵	dataframe
二维列表 L	-	np.array(L)	np.mat(L)	pd.DataFrame(L)
二维数组 a	a.tolist()	-	np.mat(a)	pd.DataFrame(a)
矩阵 m	m.tolist()	np.array(m)	-	pd.DataFrame(m)
dataframe	df.values.tolist()	df.values	np.mat(df.values)	-

2.2.1 二维列表转其他

在这里插入图片描述

2.2.2 二维数组转其他

在这里插入图片描述

2.2.3 矩阵转其他

在这里插入图片描述

2.2.4 dataframe转其他

在这里插入图片描述

2.3 数据的读写

filepath_or_buffer: 文件,
		sep=',', 数据分隔符
		delimiter=None, 同上
		header='infer', 表头/列名 ,默认,用数据的第一行作为列名. None就是不用数据列名
		names=None, 列名
		index_col=None, 用哪一列作为行索引

2.3.1 读写csv文件

csv文件轻量化的文件格式，非常小，读写的时候速度都比较快

data1=[[1, 2, 3],[4, 5, 6],[7, 8, 9]] #二维列表创建,二维元组
d1=DataFrame(data1,index=['a','b','c'],columns=['one','two','three']) #创建的时候加上行索引和列索引
d1

#写
d1.to_csv('d1.csv',sep=',', header=True)   #写入csv,带header，sep指定分割符，一般使用','
#读
pd.read_csv('d1.csv',index_col=0) #将第0列设置为索引
-----------------------------------------------------------------------
#写
d1.to_csv('d2.csv',sep=',', header=False) #写入csv,不带header
#读
pd.read_csv('d2.csv',index_col=0,names=['one','two','three']) #names参数增加列名(在读的时候列名用names)

2.3.2 读写excel文件

#写到excel中的某个表格
d1.to_excel('d1.xlsx',sheet_name='d1_sheet') 
#读取excel中的某个表格
pd.read_excel('d1.xlsx',sheet_name='d1_sheet',index_col=0)

#写到多个表格，上下文管理语句
with pd.ExcelWriter('output.xlsx') as writer:
    d1.to_excel(writer, sheet_name='d1')
    d2.to_excel(writer, sheet_name='iris')

2.3.3 读html文件

df1=pd.read_html('http://www网址')

2.3.4 读粘贴板数据

pd.read_clipboard() #从粘贴板读取数据

2.4 数据的查看

df.head() #默认前5行，想查看前几行，括号中写几

df.tail() #默认尾部5行，想查看尾部几行，括号中写几

df.sample(n = 4) #随机的抽取，n = 4随机抽取4行

df.sample(frac=0.2, replace=True, weights=df1.列名, random_state=0)   #抽取20%的数据；可放回；权重（有多少条数据就应该有多少个数进行对应）；随机数种子

df.shape #形状

查看数据框的形状，得到一个元组，元组中的值表示数据框的行数和列数

df.dtypes #查看数据类型

df.isnull() #缺失值

df.info() #详细信息

详细信息，包括数据类型以及缺失值
注意字符串字段类型Dtype 显示 object而不是str
因为存储的地址（有固定位宽），而不是数据本身；
str类型的值长度并不固定，不知道应该赋予多少位宽，所以显示的类型是object

df.index 行索引

df.columns 列名

2.5 索引和切片

2.5.1 行的选择

隐式索引，默认的索引选择行

df[:1] #选择第一行，默认的索引选择行

在这里插入图片描述

显示索引，选取索引名

在这里插入图片描述

2.5.2 列的选择

df['列名'] #选出的是序列
df.列名 #选出的是序列
df[['列名']] #选择一列，dataframe
df[['列名1','列名2']] #选择多列

在这里插入图片描述

2.5.3 行，列的选择：loc方式显式

用的是数据框中能看到的行索引和列索引，左闭右闭

df.loc[ 行标签信息，列标签信息 ]#行列标签注意带有引号
 #如果只对列有要求，行信息不可以省略，用冒号表示全部都要

在这里插入图片描述

2.5.4 行，列的选择：iloc方式隐式

用的是数据在表中的位置索引，左闭右开

df.iloc[行位置信息，列位置信息]
df1.iloc[1:3,0:2] #两部分参数，对行的需求和对列的需求
df1.iloc[1:3]#如果只对行有要求，列信息可以省略
df1.iloc[:,[2,4]] #如果只对列有要求，行信息不可以省略，用冒号表示全部都要

在这里插入图片描述

2.5.5 过滤

选择满足条件的行

在这里插入图片描述

选择满足条件的列

在这里插入图片描述

选择满足条件的行和列

在这里插入图片描述

2.5.6 索引设置

将某列设置为索引:set_index

在这里插入图片描述

恢复默认索引:reset_index

在这里插入图片描述

创建一个适应新索引的新对象：reindex

在这里插入图片描述

2.5.7 修改索引/列名

参数:
		index：修改行索引
		columns：修改列索引
		也可以支持函数,或者是字典映射

在这里插入图片描述

2.6 dataframe的增加和删除

2.6.1 新增行

df.loc['index名'] = 数据 #数据长度要一致

在这里插入图片描述

2.6.2 新增列

df['列名'] = 数据
df.insert(序号,'列名',数据)

在这里插入图片描述

2.6.3 删除行或列

#删除 要不是index 就是columns
df.drop('index名',axis=0)  #删除行，默认情况，axis=0，新生成操作
df.drop('列名',axis=1) #删除列
drop  #删除列/行
		df.drop(index=[1,2])  #删除行
		df.drop(columns=["列名"])  #删除列
del df['列名']  #直接在原数据中删除该列
df.pop("列名")  #弹出删除列

df.drop(‘index名’,axis=0) #删除行，默认情况，axis=0，新生成操作
df.drop(‘列名’,axis=1) #删除列
在这里插入图片描述 df.drop(index=[1,2]) #删除行
df.drop(columns=[“列名”]) #删除列

del df[‘列名’] #直接在原数据中删除该列

在这里插入图片描述
df.pop(“列名”) #弹出删除列

2.7 算术运算和对齐

2.7.1 dataframe之间相加

#dataframe的运算，索引自动对齐，行索引对齐，列索引对齐，不足的部分引入缺失值
df1 = DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]],
    index=['a','c','b'],columns=['one','two','three'])

df2 = DataFrame(np.arange(0,16).reshape(4,4),
    index=['a','b','c','d'],columns=['one','two','three','four'])
df1+df2  #直接相加

在这里插入图片描述

df1.add(df2,fill_value=0) #调用方法,对有缺失的数据进行填充，填充完再进行相加

在这里插入图片描述

2.7.2 dataframe和数相加,每一个元素都进行操作

在这里插入图片描述

2.7.3 映射：apply,map,applymap

apply：针对行和列操作，可以对dataframe，可以对序列
map：对序列中的单个元素进行操作
applymap：对dataframe中的单个元素进行操作

2.7.3.1 apply：针对行和列操作，可以对dataframe，可以对序列

apply对dataframe

在这里插入图片描述

2.apply对序列
在这里插入图片描述

2.7.3.2 map：对序列中的单个元素进行操作

在这里插入图片描述

2.7.3.3 applymap：对dataframe中的单个元素进行操作

在这里插入图片描述

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

从航模少年到最年轻创始理事，在开源世界里逐光前行｜CodeMaster #2

GitCode 开源社区

GitCode 助力 Dora SSR：开启游戏开发新征程

GitCode 开源社区

本周四中午，国产编程语言蓝皮书发布会来袭

GitCode 开源社区

所有评论(0)

查看更多评论

潇洒白羊

@one_bird_

已为社区贡献2条内容

python学习——pandas库的使用之series及DataFrame创建、查看、切片、运算

潇洒白羊

pandas学习目录

pandas

1 Series（序列）

1.1 基本概念

1.1.1 索引 ser[‘a’]、ser.a、ser[0]、ser.get(‘a’)

1.1.2 切片

1.1.2.1 基于标签切片的时候，切片区间全闭

1.1.2.2 基于位置的切片语法 切片区间左闭右开

1.1.3 选择和过滤

1.1.3.1 直接通过Series进行比较

1.1.3.2 通过Series.index 或者 Series.values进行比较

1.2 序列创建

1.2.1 列表，元组(一维)

1.2.2 标量

1.2.3 数组

1.2.4 字典

1.3 序列、索引名字及属性

1.3.1 序列的名字和索引名字

1.3.2 序列的属性

1.4 序列的运算

1.4.1 序列运算保留索引

1.4.2 序列运算，索引自动对齐

2 DataFrame

2.1 构建DataFrame

2.1.1 二维列表创建

通过二维列表，二维元组直接创建，默认行列索引

创建dataframe后添加行索引和列索引

创建dataframe的时候加上行索引和列索引

2.1.2 二维数组创建

创建dataframe时，默认行列索引

创建dataframe时，添加行列索引名

2.1.3 等长列表、 元组、 数组、 序列组成的字典创建

等长列表组成的字典

等长元组组成的字典

等长数组组成的字典

等长序列组成的字典

2.1.4 字典组成的字典创建

2.1.5 字典的列表创建

2.1.6 Series 创建DataFrame

2.2 二维结构数据转换

2.2.1 二维列表转其他

2.2.2 二维数组转其他

2.2.3 矩阵转其他

2.2.4 dataframe转其他

2.3 数据的读写

2.3.1 读写csv文件

2.3.2 读写excel文件

2.3.3 读html文件

2.3.4 读粘贴板数据

2.4 数据的查看

df.head() #默认前5行，想查看前几行，括号中写几

df.tail() #默认尾部5行，想查看尾部几行，括号中写几

df.sample(n = 4) #随机的抽取，n = 4随机抽取4行

df.shape #形状

df.dtypes #查看数据类型

df.isnull() #缺失值

df.info() #详细信息

df.index 行索引

df.columns 列名

2.5 索引和切片

2.5.1 行的选择

隐式索引，默认的索引选择行

显示索引，选取索引名

2.5.2 列的选择

2.5.3 行，列的选择：loc方式 显式

2.5.4 行，列的选择：iloc方式 隐式

2.5.5 过滤

选择满足条件的行

选择满足条件的列

选择满足条件的行和列

2.5.6 索引设置

将某列设置为索引:set_index

恢复默认索引:reset_index

创建一个适应新索引的新对象：reindex

2.5.7 修改索引/列名

2.6 dataframe的增加和删除

2.6.1 新增行

2.6.2 新增列

1.1.2.2 基于位置的切片语法切片区间左闭右开

2.1.3 等长列表、元组、数组、序列组成的字典创建

2.5.3 行，列的选择：loc方式显式

2.5.4 行，列的选择：iloc方式隐式