值得一看
广告
彩虹云商城
广告

热门广告位

Python 使用 pandas chunk 处理大文件

chunk是pandas分块读取数据时的单位,设置chunksize可返回可迭代对象,每块为小型DataFrame;示例中每次读取10000行进行处理,适用于清洗、统计、导出等场景;通过累计sum和count计算全局均值,或过滤后保存到新文件、写入数据库;需权衡chunksize大小,避免内存累积,注意跨块操作需维护中间状态。

python 使用 pandas chunk 处理大文件

处理大文件时,直接读取整个文件容易导致内存溢出。Python 中的 pandas 提供了 chunksize 参数,可以分块读取数据,逐块处理,有效降低内存占用。

什么是 chunk?

在使用 pandas.read_csv() 或类似方法时,设置 chunksize 参数会返回一个可迭代的对象,每次只加载一部分数据。每一块(chunk)都是一个小型 DataFrame,可以单独处理。

示例代码:

import pandas as pd
<h1>指定每次读取 10000 行</h1><p>chunk_size = 10000
file_path = 'large_data.csv'</p><p>for chunk in pd.read_csv(file_path, chunksize=chunk_size):</p><p><span>立即学习</span>“<a href="https://pan.quark.cn/s/00968c3c2c15" rel="nofollow" target="_blank">Python免费学习笔记(深入)</a>”;</p><h1>对每一块数据进行处理</h1><pre class="brush:php;toolbar:false;"><pre class="brush:php;toolbar:false;">print(f"处理 {len(chunk)} 行数据")
# 例如:统计某一列的均值
if 'value' in chunk.columns:
print("value 列平均值:", chunk['value'].mean())

常见用途与技巧

分块读取适用于多种场景,比如数据清洗、聚合统计、写入数据库或导出新文件。

百宝箱

百宝箱

百宝箱是支付宝推出的一站式AI原生应用开发平台,无需任何代码基础,只需三步即可完成AI应用的创建与发布。

百宝箱313

查看详情
百宝箱

1. 聚合全局统计信息
即使数据被分块,也可以累计计算总和、均值等。

total_sum = 0
total_count = 0
<p>for chunk in pd.read_csv(file_path, chunksize=10000):
total_sum += chunk['value'].sum()
total_count += len(chunk)</p><p>overall_mean = total_sum / total_count
print("整体均值:", overall_mean)</p>

2. 过滤数据并保存结果
可以筛选符合条件的数据,写入新文件。

<pre class="brush:php;toolbar:false;">output_file = 'filtered_data.csv'
first_chunk = True  # 控制是否写入表头
<p>for chunk in pd.read_csv(file_path, chunksize=10000):
filtered = chunk[chunk['value'] > 100]</p><h1>第一次写入时包含表头,后续追加</h1><pre class="brush:php;toolbar:false;">filtered.to_csv(output_file, mode='a', header=first_chunk, index=False)
first_chunk = False

3. 写入数据库
适合将大数据逐步导入数据库。

<pre class="brush:php;toolbar:false;">from sqlalchemy import create_engine
<p>engine = create_engine('sqlite:///mydb.db')</p><p>for chunk in pd.read_csv(file_path, chunksize=5000):
chunk.to_sql('table_name', engine, if_exists='append', index=False)</p>

注意事项

使用 chunk 处理时需要注意以下几点:

  • chunksize 大小需权衡:太小会增加 I/O 开销,太大仍可能耗内存,一般 5000~50000 行较合适。
  • 确保每块数据处理完及时释放,避免累积变量占用内存。
  • 若需去重或排序,分块处理会复杂,可能需要额外策略(如分组键哈希)。
  • 某些操作(如跨块统计)需手动维护中间状态。

基本上就这些。合理使用 chunk 可以轻松应对远超内存容量的 CSV 文件处理任务。

相关标签:

python 大数据 app csv 数据清洗 内存占用 可迭代对象 red Python pandas count 对象 数据库

大家都在看:

将Pandas月度列数据汇总至季度与年度:实战教程
Pandas数据透视:将月度数据汇总为季度和年度列
Python pandas 性能优化技巧
python中pandas如何处理缺失值(NaN)?
基于相邻列条件进行累计求和的 Pandas 教程
温馨提示: 本文最后更新于2025-09-23 22:29:07,某些文章具有时效性,若有错误或已失效,请在下方留言或联系在线客服
文章版权声明 1 本网站名称: 创客网
2 本站永久网址:https://new.ie310.com
1 本文采用非商业性使用-相同方式共享 4.0 国际许可协议[CC BY-NC-SA]进行授权
2 本站所有内容仅供参考,分享出来是为了可以给大家提供新的思路。
3 互联网转载资源会有一些其他联系方式,请大家不要盲目相信,被骗本站概不负责!
4 本网站只做项目揭秘,无法一对一教学指导,每篇文章内都含项目全套的教程讲解,请仔细阅读。
5 本站分享的所有平台仅供展示,本站不对平台真实性负责,站长建议大家自己根据项目关键词自己选择平台。
6 因为文章发布时间和您阅读文章时间存在时间差,所以有些项目红利期可能已经过了,能不能赚钱需要自己判断。
7 本网站仅做资源分享,不做任何收益保障,创业公司上收费几百上千的项目我免费分享出来的,希望大家可以认真学习。
8 本站所有资料均来自互联网公开分享,并不代表本站立场,如不慎侵犯到您的版权利益,请联系79283999@qq.com删除。

本站资料仅供学习交流使用请勿商业运营,严禁从事违法,侵权等任何非法活动,否则后果自负!
THE END
喜欢就支持一下吧
点赞13赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容