当前位置:首页 > python > 正文内容

python csvw格式文件转parquet格式文件

root5年前 (2021-06-09)python2135

用到的包: pandas    pyarrow    

pandas pd

df pd.(,,)
df.()

要求csv文件 要有头行

一定要安装pyarrow  

pip install pyarrow  


读取 parquet文件

pyarrow.parquet pq
table pq.()
df table.()
bbdf.()
(bb)
(bb.())


head(10)获取前10行

然后在给转一下json格式


自定义数据

from fastparquet import write, ParquetFile
df = pd.DataFrame({"col1": [1,2,3,4], "col2": ["a","b","c","d"]})
df.to_csv("test_csv", index=False)
df_csv = pd.read_csv("test_csv")
df_csv.to_parquet("test_parquet", compression="GZIP")
df_parquet = ParquetFile("/tmp/test_parquet").to_pandas()
df_parquet.head()


https://stackoverflow.com/questions/54642089/python-pandas-to-convert-csv-to-parquet-using-fastparquet

https://blog.csdn.net/weixin_34390996/article/details/92760588

遇见的问题

解决方案

https://www.jianshu.com/p/be233bdb4dbf

https://blog.csdn.net/littlehaes/article/details/107157812



扫描二维码推送至手机访问。

版权声明:本文由一叶知秋发布,如需转载请注明出处。

本文链接:https://zhiqiu.top/?id=120

分享给朋友:

相关文章

父进程退出后如何退出子进程

我们知道当子进程推出的时候,父进程会收到 SIGCHLD 信号,从而可以采取相应的操作。但是当父进程退出的时候,系统会把子进程的父进程更改为pid=0的 init 进程,而且子进程不会收到任何信号。而我们经常想在父进程退出的时候,让子进程也...

centos7 python2安装psutil

[root@internet geo_server]# pip install psutilDEPRECATION: Python 2.7 reached th...

python 的configparser 读取配置文件遇到%特殊符号

test.ini 配置文件中有mysql的密码,且密码含有“%”这个特殊符号因为%在py是转义符的含义需要对该字符转义即修改  %  为 %%用%对%进行转义...

pip 升级到指定版本,但是py2的pip版本务必在20版本以内包含20版本

python3 -m pip install --user --upgrade pip==9.0.3(换成你想要的版本编号)如果python2的只能升级到20+版本。超过会出现不支持的情况...

cmd启动python交互模式 出现UnicodeDecodeError: 'gbk' codec can't decode byte 0x9a in position 533

这是因为在python交互模式的中输出了中文,且是个输出被记录在.python_history中删除历史记录文件C:\Users\Administrator\.python_history...

获取大文件的MD5值

(, )os.path.(, )logger.()         os.path.(, )logger.()  &...