当前位置:首页 > python > 正文内容

python csvw格式文件转parquet格式文件

root5年前 (2021-06-09)python2136

用到的包: pandas    pyarrow    

pandas pd

df pd.(,,)
df.()

要求csv文件 要有头行

一定要安装pyarrow  

pip install pyarrow  


读取 parquet文件

pyarrow.parquet pq
table pq.()
df table.()
bbdf.()
(bb)
(bb.())


head(10)获取前10行

然后在给转一下json格式


自定义数据

from fastparquet import write, ParquetFile
df = pd.DataFrame({"col1": [1,2,3,4], "col2": ["a","b","c","d"]})
df.to_csv("test_csv", index=False)
df_csv = pd.read_csv("test_csv")
df_csv.to_parquet("test_parquet", compression="GZIP")
df_parquet = ParquetFile("/tmp/test_parquet").to_pandas()
df_parquet.head()


https://stackoverflow.com/questions/54642089/python-pandas-to-convert-csv-to-parquet-using-fastparquet

https://blog.csdn.net/weixin_34390996/article/details/92760588

遇见的问题

解决方案

https://www.jianshu.com/p/be233bdb4dbf

https://blog.csdn.net/littlehaes/article/details/107157812



扫描二维码推送至手机访问。

版权声明:本文由一叶知秋发布,如需转载请注明出处。

本文链接:https://zhiqiu.top/?id=120

分享给朋友:

相关文章

pip 升级到指定版本,但是py2的pip版本务必在20版本以内包含20版本

python3 -m pip install --user --upgrade pip==9.0.3(换成你想要的版本编号)如果python2的只能升级到20+版本。超过会出现不支持的情况...

cmd启动python交互模式 出现UnicodeDecodeError: 'gbk' codec can't decode byte 0x9a in position 533

这是因为在python交互模式的中输出了中文,且是个输出被记录在.python_history中删除历史记录文件C:\Users\Administrator\.python_history...

python跟pip不是同一个版本的坑

python执行默认是Python2.7但是pip默认确实pip3的用pip install 安装包只会安装到python3环境里面指回pip vim /usr/local/bin/pip把 第一行的#!/usr/bin...

Python的多线程并发限制

maxConnections connection_lock (maxConnections)在开启线程前执行connection_lock.acquire()线程执行结束执行connection_lock.releas...

python2的pip 不能使用或者使用总是报错

python2的pip 不能使用或者使用总是报错

python2.7   当然可能还有其他情况有的是pip版本升级过高,有的是pip有点问题无法执行pip的命令升级python2的 pip 一定要小心推荐命令:pip install --upgrad...