Python 使用 pandas chunk 处理大文件-创客网

chunk是pandas分块读取数据时的单位，设置chunksize可返回可迭代对象，每块为小型DataFrame；示例中每次读取10000行进行处理，适用于清洗、统计、导出等场景；通过累计sum和count计算全局均值，或过滤后保存到新文件、写入数据库；需权衡chunksize大小，避免内存累积，注意跨块操作需维护中间状态。

python 使用 pandas chunk 处理大文件

处理大文件时，直接读取整个文件容易导致内存溢出。Python 中的 pandas 提供了 chunksize 参数，可以分块读取数据，逐块处理，有效降低内存占用。

什么是 chunk？

在使用 pandas.read_csv() 或类似方法时，设置 chunksize 参数会返回一个可迭代的对象，每次只加载一部分数据。每一块（chunk）都是一个小型 DataFrame，可以单独处理。

示例代码：

import pandas as pd
<h1>指定每次读取 10000 行</h1><p>chunk_size = 10000
file_path = 'large_data.csv'</p><p>for chunk in pd.read_csv(file_path, chunksize=chunk_size):</p><p><span>立即学习</span>“<a href="https://pan.quark.cn/s/00968c3c2c15" rel="nofollow" target="_blank">Python免费学习笔记（深入）</a>”；</p><h1>对每一块数据进行处理</h1><pre class="brush:php;toolbar:false;"><pre class="brush:php;toolbar:false;">print(f"处理 {len(chunk)} 行数据")
# 例如：统计某一列的均值
if 'value' in chunk.columns:
print("value 列平均值:", chunk['value'].mean())

常见用途与技巧

分块读取适用于多种场景，比如数据清洗、聚合统计、写入数据库或导出新文件。

百宝箱

百宝箱是支付宝推出的一站式AI原生应用开发平台，无需任何代码基础，只需三步即可完成AI应用的创建与发布。

313

查看详情
百宝箱

1. 聚合全局统计信息
即使数据被分块，也可以累计计算总和、均值等。

total_sum = 0
total_count = 0
<p>for chunk in pd.read_csv(file_path, chunksize=10000):
total_sum += chunk['value'].sum()
total_count += len(chunk)</p><p>overall_mean = total_sum / total_count
print("整体均值:", overall_mean)</p>

2. 过滤数据并保存结果
可以筛选符合条件的数据，写入新文件。

<pre class="brush:php;toolbar:false;">output_file = 'filtered_data.csv'
first_chunk = True  # 控制是否写入表头
<p>for chunk in pd.read_csv(file_path, chunksize=10000):
filtered = chunk[chunk['value'] > 100]</p><h1>第一次写入时包含表头，后续追加</h1><pre class="brush:php;toolbar:false;">filtered.to_csv(output_file, mode='a', header=first_chunk, index=False)
first_chunk = False

3. 写入数据库
适合将大数据逐步导入数据库。

<pre class="brush:php;toolbar:false;">from sqlalchemy import create_engine
<p>engine = create_engine('sqlite:///mydb.db')</p><p>for chunk in pd.read_csv(file_path, chunksize=5000):
chunk.to_sql('table_name', engine, if_exists='append', index=False)</p>

注意事项

使用 chunk 处理时需要注意以下几点：

chunksize 大小需权衡：太小会增加 I/O 开销，太大仍可能耗内存，一般 5000～50000 行较合适。
确保每块数据处理完及时释放，避免累积变量占用内存。
若需去重或排序，分块处理会复杂，可能需要额外策略（如分组键哈希）。
某些操作（如跨块统计）需手动维护中间状态。

基本上就这些。合理使用 chunk 可以轻松应对远超内存容量的 CSV 文件处理任务。

大家都在看：

将Pandas月度列数据汇总至季度与年度：实战教程
Pandas数据透视：将月度数据汇总为季度和年度列
Python pandas 性能优化技巧
python中pandas如何处理缺失值（NaN）？
基于相邻列条件进行累计求和的 Pandas 教程

温馨提示： 本文最后更新于2025-09-23 22:29:07，某些文章具有时效性，若有错误或已失效，请在下方留言或联系在线客服。

文章版权声明 1 本网站名称： 创客网
2 本站永久网址：https://new.ie310.com
1 本文采用非商业性使用-相同方式共享 4.0 国际许可协议[CC BY-NC-SA]进行授权
2 本站所有内容仅供参考，分享出来是为了可以给大家提供新的思路。
3 互联网转载资源会有一些其他联系方式，请大家不要盲目相信，被骗本站概不负责！
4 本网站只做项目揭秘，无法一对一教学指导，每篇文章内都含项目全套的教程讲解，请仔细阅读。
5 本站分享的所有平台仅供展示，本站不对平台真实性负责，站长建议大家自己根据项目关键词自己选择平台。
6 因为文章发布时间和您阅读文章时间存在时间差，所以有些项目红利期可能已经过了，能不能赚钱需要自己判断。
7 本网站仅做资源分享，不做任何收益保障，创业公司上收费几百上千的项目我免费分享出来的，希望大家可以认真学习。
8 本站所有资料均来自互联网公开分享，并不代表本站立场，如不慎侵犯到您的版权利益，请联系79283999@qq.com删除。

本站资料仅供学习交流使用请勿商业运营，严禁从事违法，侵权等任何非法活动，否则后果自负！

THE END

后端教程建站教程
# python # app # 大数据 # pandas # 大文件

文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中
文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中
文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中

121:29 这拖的痕迹有点太明显了

2在css中如何通过transition-delay设置延迟

3Python中如何模拟测试？

400:51 底栏点主会场领200-20奍地区价屈臣氏（Watsons）有解电解

519:55 工行e生活中了100刷卡金但是。。

6JavaScript中的尾调用优化是什么？

热门广告位

Python 使用 pandas chunk 处理大文件

什么是 chunk？

常见用途与技巧

注意事项

大家都在看：

请登录后发表评论

121:29 这拖的痕迹有点太明显了

2在css中如何通过transition-delay设置延迟

3Python中如何模拟测试？

400:51 底栏点主会场领200-20奍 地区价 屈臣氏（Watsons）有解电解

519:55 工行e生活中了100刷卡金但是。。

6JavaScript中的尾调用优化是什么？

热门广告位

Python 使用 pandas chunk 处理大文件

什么是 chunk？

常见用途与技巧

注意事项

大家都在看：

请登录后发表评论

400:51 底栏点主会场领200-20奍地区价屈臣氏（Watsons）有解电解