使用Pandas高效筛选缺失值并进行多维度分组计数-创客网

使用Pandas高效筛选缺失值并进行多维度分组计数

本文详细介绍了如何利用Pandas库对数据集进行高效的数据检索和统计。核心内容包括：首先筛选出特定列（如NumericValue）中包含缺失值（NaN）的行，然后基于多个维度（如SpatialDim和TimeDim）对筛选后的数据进行分组，并计算每个分组的记录数量。通过实际代码示例，展示了从数据加载、条件过滤到多维分组计数的完整流程，旨在帮助用户掌握Pandas在数据清洗和聚合分析中的应用。

1. 引言

在数据分析工作中，我们经常需要从庞大的数据集中提取符合特定条件的信息，并对其进行聚合统计。一个常见的场景是，我们需要识别数据中某些关键指标缺失（表示为nan）的记录，并进一步分析这些缺失值在不同维度上的分布情况。例如，在一个包含空间维度、时间维度和数值的数据集中，我们可能需要找出所有数值缺失的记录，然后统计每个空间维度和时间维度组合下有多少这样的记录。pandas库提供了强大而灵活的功能来高效完成此类任务。

2. 数据准备

为了演示，我们首先需要一个示例数据集。假设我们的数据存储在一个CSV文件中，名为space.csv，其内容如下：

Id,SpatialDimType,SpatialDim,TimeDim,Value,NumericValue,Low,High
32256659,COUNTRY,AND,2022,No data,,,
32256659,COUNTRY,AND,2022,No data,,,
32256659,COUNTRY,AND,2023,No data,,,
32256661,COUNTRY,ATG,2022,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2004,No data,,,
32256664,COUNTRY,AUS,2004,No data,,,
32256665,COUNTRY,AUT,2004,No data,,,

请注意，NumericValue列中存在缺失值，在CSV中表现为空白。Pandas在读取时会自动将其识别为NaN。

3. 实现步骤与代码示例

整个处理流程可以分为两个主要步骤：首先是筛选出NumericValue为NaN的行，然后是根据SpatialDim和TimeDim进行分组并计数。

步骤一：加载数据并筛选缺失值

我们使用pandas.read_csv函数加载数据。接着，利用布尔索引和isna()方法来筛选出NumericValue列中值为NaN的行。

import pandas as pd
import io
# 模拟从CSV文件读取数据
csv_data = """Id,SpatialDimType,SpatialDim,TimeDim,Value,NumericValue,Low,High
32256659,COUNTRY,AND,2022,No data,,,
32256659,COUNTRY,AND,2022,No data,,,
32256659,COUNTRY,AND,2023,No data,,,
32256661,COUNTRY,ATG,2022,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2004,No data,,,
32256664,COUNTRY,AUS,2004,No data,,,
32256665,COUNTRY,AUT,2004,No data,,,
"""
df = pd.read_csv(io.StringIO(csv_data))
# 筛选出NumericValue为NaN的行
df_filtered = df[df['NumericValue'].isna()]
print("筛选出NumericValue为NaN的行：")
print(df_filtered)
print("\n" + "="*50 + "\n")

上述代码中，df[‘NumericValue’].isna()会返回一个布尔Series，其中True表示对应位置的值为NaN，False则不是。将此布尔Series作为索引传递给DataFrame，即可选出所有NumericValue为NaN的行。

步骤二：按多列分组并计数

在筛选出目标行之后，我们需要根据SpatialDim和TimeDim两列进行分组，并计算每个分组的记录数量。

# 对筛选后的数据按'SpatialDim'和'TimeDim'进行分组，并计算每个组的大小
# .size() 方法返回每个组的行数（即计数）
# .reset_index(name='count') 将分组结果转换为DataFrame，并将计数列命名为'count'
result_df = df_filtered.groupby(
by=['SpatialDim', 'TimeDim']
).size().reset_index(name='count')
print("按SpatialDim和TimeDim分组后的计数结果：")
print(result_df)

代码解释：

df_filtered.groupby(by=[‘SpatialDim’, ‘TimeDim’]): 这一步创建了一个GroupBy对象，它将DataFrame按照SpatialDim和TimeDim两列的唯一组合进行分组。
.size(): 这是GroupBy对象的一个方法，它会计算每个组中元素的数量。结果是一个Series，其索引是分组的键（SpatialDim和TimeDim的组合），值是对应的计数。
.reset_index(name=’count’): size()返回的Series的索引是多层索引（SpatialDim和TimeDim）。reset_index()方法会将这些索引转换为普通的列。name=’count’参数用于指定新生成的计数列的名称。

4. 完整代码示例

将上述两个步骤整合，得到完整的解决方案：

import pandas as pd
import io
# 模拟从CSV文件读取数据
csv_data = """Id,SpatialDimType,SpatialDim,TimeDim,Value,NumericValue,Low,High
32256659,COUNTRY,AND,2022,No data,,,
32256659,COUNTRY,AND,2022,No data,,,
32256659,COUNTRY,AND,2023,No data,,,
32256661,COUNTRY,ATG,2022,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2004,No data,,,
32256664,COUNTRY,AUS,2004,No data,,,
32256665,COUNTRY,AUT,2004,No data,,,
"""
# 使用io.StringIO模拟文件读取，实际应用中替换为 pd.read_csv('./space.csv')
df = pd.read_csv(io.StringIO(csv_data))
# 1. 筛选NumericValue为NaN的行
df_filtered = df[df['NumericValue'].isna()]
# 2. 按'SpatialDim'和'TimeDim'分组并计数
# .size() 返回每个组的元素数量
# .reset_index(name='count') 将分组结果的索引重置为列，并将计数列命名为'count'
final_counts = df_filtered.groupby(
by=['SpatialDim', 'TimeDim']
).size().reset_index(name='count')
print(final_counts)

输出结果：

  SpatialDim  TimeDim  count
0        AND     2022      2
1        AND     2023      1
2        ATG     2022      1
3        AUS     2001      3
4        AUS     2004      2
5        AUT     2004      1

这个结果清晰地展示了每个SpatialDim和TimeDim组合下，NumericValue为NaN的记录数量。

5. 注意事项与扩展

缺失值的表示： Pandas通常将空字符串、None、np.nan等识别为缺失值。在读取数据时，可以通过na_values参数指定额外的缺失值表示。
其他聚合操作： 除了size()用于计数，groupby对象还支持多种聚合函数，如mean()（平均值）、sum()（总和）、min()（最小值）、max()（最大值）、std()（标准差）等。你也可以使用agg()方法同时执行多种聚合。
value_counts()的替代： 如果只需要对单列进行计数，并且不需要额外的分组，Series.value_counts()是一个更简洁的选择。但对于多列分组计数，groupby().size()或groupby().count()是标准做法。
性能优化： 对于非常大的数据集，考虑使用Dask或PySpark等分布式计算框架。对于Pandas内部操作，通常其底层C实现已经非常高效。
处理非NaN的条件： 如果需要筛选非NaN的值，可以使用df[‘Column’].notna()。如果需要筛选特定数值，例如NumericValue == 0，直接使用df[df[‘NumericValue’] == 0]即可。

6. 总结

本文详细阐述了如何利用Pandas库在Python中进行条件数据筛选和多维度分组计数。通过结合isna()进行缺失值过滤和groupby().size().reset_index()进行分组统计，我们能够高效地从复杂数据中提取有价值的聚合信息。掌握这些Pandas核心操作对于数据清洗、探索性数据分析和报告生成至关重要。

温馨提示： 本文最后更新于2025-07-19 22:29:15，某些文章具有时效性，若有错误或已失效，请在下方留言或联系易赚网。

文章版权声明 1 本网站名称： 创客网
2 本站永久网址：https://new.ie310.com
1 本文采用非商业性使用-相同方式共享 4.0 国际许可协议[CC BY-NC-SA]进行授权
2 本站所有内容仅供参考，分享出来是为了可以给大家提供新的思路。
3 互联网转载资源会有一些其他联系方式，请大家不要盲目相信，被骗本站概不负责！
4 本网站只做项目揭秘，无法一对一教学指导，每篇文章内都含项目全套的教程讲解，请仔细阅读。
5 本站分享的所有平台仅供展示，本站不对平台真实性负责，站长建议大家自己根据项目关键词自己选择平台。
6 因为文章发布时间和您阅读文章时间存在时间差，所以有些项目红利期可能已经过了，能不能赚钱需要自己判断。
7 本网站仅做资源分享，不做任何收益保障，创业公司上收费几百上千的项目我免费分享出来的，希望大家可以认真学习。
8 本站所有资料均来自互联网公开分享，并不代表本站立场，如不慎侵犯到您的版权利益，请联系79283999@qq.com删除。

本站资料仅供学习交流使用请勿商业运营，严禁从事违法，侵权等任何非法活动，否则后果自负！

THE END

免费课程网创课程
# python # red # csv文件 # 聚合函数

文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中
文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中
文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中

1如何解决不同CSS文件中的样式冲突？

2Go语言中如何使用反射（reflect）包打印对象成员名称与值

3最新黑名单查询录入系统_全开源源码

4小红书冬季限定最新玩法，AI一键操作，引爆流量，小白秒上手，日入2000+

5SingleDivUI 条形图：根据数值动态设置颜色教程

6通过Boss直聘，每天轻松钓到200+多条创业大鱼的秘籍【揭秘】