当前位置：首页 > python > 正文内容

pandas用法总结

root5年前 (2021-10-09)python1638

首先导入pandas库，一般都会用到numpy库，所以我们先导入备用

import numpy as np
import pandas as pd

导入CSV或者xlsx文件

df = pd.DataFrame(pd.read_csv('name.csv',header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))

或者

import pandas as pd
from collections import namedtuple

Item = namedtuple('Item', 'reply pv')
items = []

with codecs.open('reply.pv.07', 'r', 'utf-8') as f: 
    for line in f:
        line_split = line.strip().split('\t')
        items.append(Item(line_split[0].strip(), line_split[1].strip()))

df = pd.DataFrame.from_records(items, columns=['reply', 'pv'])

用pandas创建数据表

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006], 
 "date":pd.date_range('20130102', periods=6),
  "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
 "age":[23,44,54,32,34,32],
 "category":['100-A','100-B','110-A','110-C','210-A','130-F'],
  "price":[1200,np.nan,2133,5433,np.nan,4432]},
  columns =['id','date','city','category','age','price'])

数据表信息查看

维度查看

    df.shape

数据表基本信息（维度、列名称、数据格式、所占空间等）

    df.info()

每一列数据的格式

    df.dtypes

某一列格式

    df['B'].dtype

判断空值

    df.isnull()

查看某一列空值

    df['B'].isnull()

查看某一列的唯一值

    df['B'].unique()

查看数据表的值

    df.values

查看列名称

    df.columns

查看前5行数据、后5行数据

    df.head()
    df.tail()

数据表清洗

用数字0填充空值

    df.fillna(value=0)

使用列prince的均值对NA进行填充

    df['prince'].fillna(df['prince'].mean())

清除city字段的字符空格

    df['city']=df['city'].map(str.strip)

大小写转换

    df['city']=df['city'].str.lower()

更改数据格式

    df['price'].astype('int')

更改列名称

    df.rename(columns={'category': 'category-size'})

删除后出现的重复值

    df['city'].drop_duplicates()

删除先出现的重复值

    df['city'].drop_duplicates(keep='last')

数据替换

    df['city'].replace('sh', 'shanghai')

数据预处理

数据表合并

merge

    df_inner=pd.merge(df,df1,how='inner')  # 匹配合并，交集    
    df_left=pd.merge(df,df1,how='left')        #
    df_right=pd.merge(df,df1,how='right')
    df_outer=pd.merge(df,df1,how='outer')  #并集

append

        result = df1.append(df2)

join

        result = left.join(right, on='key')

concat

        pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
	          keys=None, levels=None, names=None, verify_integrity=False,
	          copy=True)

设置索引列

    df_inner.set_index('id')

按照特定列的值排序

    df_inner.sort_values(by=['age'])

按照索引列排序

    df_inner.sort_index()

如果prince列的值>3000，group列显示high，否则显示low

    df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low')

对复合多个条件的数据进行分组标记

    df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1

对category字段的值依次进行分列，并创建数据表，索引值为df_inner的索引列，列名称为category和size

    pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,columns=['category','size']))

将完成分裂后的数据表和原df_inner数据表进行匹

    df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)

按索引提取单行的数值

    df_inner.loc[3]

按索引提取区域行数值

    df_inner.iloc[0:5]

重设索引

    df_inner.reset_index()

设置日期为索引

    df_inner=df_inner.set_index('date')

提取4日之前的所有数据

    df_inner[:'2013-01-04']

使用iloc按位置区域提取数据

        df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称，而是数据所在的位置，从0开始，前三行，前两列。

适应iloc按位置单独提起数据

    df_inner.iloc[[0,2,5],[4,5]] #提取第0、2、5行，4、5列

使用ix按索引标签和位置混合提取数据

    df_inner.ix[:'2013-01-03',:4] #2013-01-03号之前，前四列数据

判断city列的值是否为北京

    df_inner['city'].isin(['beijing'])

判断city列里是否包含beijing和shanghai，然后将符合条件的数据提取出来

    df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]

提取前三个字符，并生成数据表

    pd.DataFrame(category.str[:3])

使用“与”进行筛选

    df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']]

使用“或”进行筛选

    df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']].sort(['age'])

使用“非”条件进行筛选

    df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id'])

对筛选后的数据按city列进行计数

    df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count()

使用query函数进行筛选

    df_inner.query('city == ["beijing", "shanghai"]')

对筛选后的结果按prince进行求和

    df_inner.query('city == ["beijing", "shanghai"]').price.sum()

对所有的列进行计数汇总

    df_inner.groupby('city').count()

按城市对id字段进行计数

    df_inner.groupby('city')['id'].count()

对两个字段进行汇总计数

    df_inner.groupby(['city','size'])['id'].count()

对city字段进行汇总，并分别计算prince的合计和均值

    df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])

简单的数据采样

    df_inner.sample(n=3)

手动设置采样权重

    weights = [0, 0, 0, 0, 0.5, 0.5]
    df_inner.sample(n=2, weights=weights)

采样后不放回

    df_inner.sample(n=6, replace=False)

采样后放回

    df_inner.sample(n=6, replace=True)

数据表描述性统计

    df_inner.describe().round(2).T #round函数设置显示小数位，T表示转置

计算列的标准差

    df_inner['price'].std()

计算两个字段间的协方差

    df_inner['price'].cov(df_inner['m-point'])

数据表中所有字段间的协方差

    df_inner.cov()

两个字段的相关性分析

    df_inner['price'].corr(df_inner['m-point']) #相关系数在-1到1之间，接近1为正相关，接近-1为负相关，0为不相关

数据表的相关性分析

    df_inner.corr()

写入Excel

    df_inner.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')

写入到CSV

    df_inner.to_csv('excel_to_python.csv')

原文

扫描二维码推送至手机访问。

本文链接：https://zhiqiu.top/?id=162

分享给朋友：

返回列表

上一篇：python 实现AES加密解密

下一篇：python 发送和发送ICMP数据包

自定义logger 模块使调用打印日志的文件为调用文件而不是logger模块

更新logging 源码1248行f f f.f_back替换为f f f.f_back f_2 f.f_back ...

python os 模块文件常用操作

123456import os #回去当前文件路径os.path.realpath(__file__)#获取文件是否存在os.path.exists(filepath)#获取文件大小os.path.getsize(fil...

selenium控制webdriver 设置请求头。只能设置简单的。自定义和固定的格式无法修改成功

time selenium webdriver options webdriver.() options.() options.( options.() browser webdriver....

获取大文件的MD5值

(, )os.path.(, )logger.() os.path.(, )logger.() &...

python2的pip 不能使用或者使用总是报错

python2.7 当然可能还有其他情况有的是pip版本升级过高，有的是pip有点问题无法执行pip的命令升级python2的 pip 一定要小心推荐命令：pip install --upgrad...

Python os.system 和subprocess.popen 并发执行linux的性能对比

os subprocess multiprocessing.dummy Pool ThreadPool command_list [] ()os.() start_time =&...

« 2026年2月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

网站分类

一叶知秋

pandas用法总结

首先导入pandas库，一般都会用到numpy库，所以我们先导入备用

导入CSV或者xlsx文件

用pandas创建数据表

数据表信息查看

维度查看

数据表基本信息（维度、列名称、数据格式、所占空间等）

每一列数据的格式

某一列格式

判断空值

查看某一列空值

查看某一列的唯一值

查看数据表的值

查看列名称

查看前5行数据、后5行数据

数据表清洗

用数字0填充空值

使用列prince的均值对NA进行填充

清除city字段的字符空格

大小写转换

更改数据格式

更改列名称

删除后出现的重复值

删除先出现的重复值

数据替换

数据预处理

数据表合并

merge

append

join

concat

设置索引列

按照特定列的值排序

按照索引列排序

如果prince列的值>3000，group列显示high，否则显示low

对复合多个条件的数据进行分组标记

对category字段的值依次进行分列，并创建数据表，索引值为df_inner的索引列，列名称为category和size

将完成分裂后的数据表和原df_inner数据表进行匹

按索引提取单行的数值

按索引提取区域行数值

重设索引

设置日期为索引

使用iloc按位置区域提取数据

适应iloc按位置单独提起数据

使用ix按索引标签和位置混合提取数据

判断city列的值是否为北京

判断city列里是否包含beijing和shanghai，然后将符合条件的数据提取出来

提取前三个字符，并生成数据表

使用“与”进行筛选

使用“或”进行筛选

使用“非”条件进行筛选

对筛选后的数据按city列进行计数

使用query函数进行筛选

对筛选后的结果按prince进行求和

对所有的列进行计数汇总

按城市对id字段进行计数

对两个字段进行汇总计数

对city字段进行汇总，并分别计算prince的合计和均值

简单的数据采样

手动设置采样权重

采样后不放回

采样后放回

数据表描述性统计

计算列的标准差

计算两个字段间的协方差

数据表中所有字段间的协方差

两个字段的相关性分析

数据表的相关性分析

写入Excel

写入到CSV

相关文章

自定义logger 模块使调用打印日志的文件为调用文件而不是logger模块

python os 模块文件常用操作

selenium控制webdriver 设置请求头。只能设置简单的。自定义和固定的格式无法修改成功

获取大文件的MD5值

python2的pip 不能使用或者使用总是报错

Python os.system 和subprocess.popen 并发执行linux的性能对比

© 2013-2020 zhiqiu.top ,All Rights Reserved 豫ICP备20005297号-1

Powered By Z-BlogPHP. Theme by TOYEAN.