当前位置:首页 > python > 正文内容

python csvw格式文件转parquet格式文件

root3年前 (2021-06-09)python979

用到的包: pandas    pyarrow    

pandas pd

df pd.(,,)
df.()

要求csv文件 要有头行

一定要安装pyarrow  

pip install pyarrow  


读取 parquet文件

pyarrow.parquet pq
table pq.()
df table.()
bbdf.()
(bb)
(bb.())


head(10)获取前10行

然后在给转一下json格式


自定义数据

from fastparquet import write, ParquetFile
df = pd.DataFrame({"col1": [1,2,3,4], "col2": ["a","b","c","d"]})
df.to_csv("test_csv", index=False)
df_csv = pd.read_csv("test_csv")
df_csv.to_parquet("test_parquet", compression="GZIP")
df_parquet = ParquetFile("/tmp/test_parquet").to_pandas()
df_parquet.head()


https://stackoverflow.com/questions/54642089/python-pandas-to-convert-csv-to-parquet-using-fastparquet

https://blog.csdn.net/weixin_34390996/article/details/92760588

遇见的问题

解决方案

https://www.jianshu.com/p/be233bdb4dbf

https://blog.csdn.net/littlehaes/article/details/107157812



扫描二维码推送至手机访问。

版权声明:本文由一叶知秋发布,如需转载请注明出处。

本文链接:https://zhiqiu.top/?id=120

分享给朋友:

相关文章

flask 服务添加ssl 证书

flask 服务添加ssl 证书

1、利用openssl生成自用的ssl证书利用openssl 生成证书openssl genrsa -des3 -out server.key 2048不要密码:再执行 一下:openssl rsa -in server.key -out...

Python-获取图片的大小

安装Pillowpip install pillow本地图片import os from PIL import Image path = os.path.join(os.g...

Python的多线程并发限制

maxConnections connection_lock (maxConnections)在开启线程前执行connection_lock.acquire()线程执行结束执行connection_lock.releas...

python2 安装 mysqlclient

python2 安装 mysqlclient

ubuntu 20.04 python2.7安装mysqlclient 遇见问题解决方案:sudo apt-get install libmysqlclient-dev apt-get ...

python 环境变量 conda 包管理 virtualenv 工具

conda 环境conda -h 查看帮助conda env list 查看所有虚拟环境deactivate 退出虚拟环境activate  环境名  进入虚拟环境virtualenv  环境workon&nb...

PIL 模块处理图像的几种模式

PIL有九种不同模式: 1,L,P,RGB,RGBA,CMYK,YCbCr,I,F1、表示二值图像不黑就是白L、为灰度图像,每个像素用8个bit表示,0表示黑,255表示白,其他数字表示不同的灰度在PIL中,从模式“RGB”转换为...