使用 Pandas 进行分组聚合时，根据条件判断状态列的值-创客网

使用 pandas 进行分组聚合时，根据条件判断状态列的值

在数据分析和处理中，Pandas 的 groupby() 和 agg() 函数是非常强大的工具。它们允许我们根据一个或多个列对数据进行分组，并对每个组应用聚合函数。本文将探讨如何在分组聚合过程中，根据特定列的值来动态确定聚合结果，特别是针对状态列（Status）的处理。

问题描述

假设我们有一个 Pandas 数据帧，其中包含一个名为 Status 的列，该列的值为 ‘OPEN’ 或 ‘CLOSED’。我们的目标是根据其他列（例如 col1, col2, col3）对数据进行分组，并针对每个组的 Status 列应用以下规则：

如果组中存在至少一个 ‘OPEN’ 值，则聚合后的 Status 值为 ‘OPEN’。
否则，聚合后的 Status 值为 ‘CLOSED’。

解决方案

以下介绍几种实现该目标的方案。

方案一：使用 Lambda 函数和 any() 方法

此方案直接在 agg() 函数中使用 lambda 函数，并结合 any() 方法来判断组中是否存在 ‘OPEN’ 值。

import pandas as pd
import numpy as np
# 示例数据
data = {'col1': [1, 1, 2, 2],
'col2': ['A', 'B', 'A', 'B'],
'col3': ['X', 'Y', 'X', 'Y'],
'col4': [10, 20, 30, 40],
'Status': ['OPEN', 'CLOSED', 'CLOSED', 'OPEN']}
df = pd.DataFrame(data)
# 使用 groupby() 和 agg() 函数
df_agg = (df.groupby(['col1', 'col2', 'col3'], as_index=False)
.agg({'col4': 'sum',
'Status': lambda x: 'OPEN' if x.eq('OPEN').any() else 'CLOSED'}))
print(df_agg)

代码解释：

df.groupby([‘col1’, ‘col2’, ‘col3’], as_index=False)：根据 col1, col2, col3 列对数据进行分组，as_index=False 确保分组列不会变成索引。
.agg({‘col4’: ‘sum’, ‘Status’: lambda x: ‘OPEN’ if x.eq(‘OPEN’).any() else ‘CLOSED’})：对分组后的数据进行聚合。col4 列使用 sum 函数进行求和。Status 列使用 lambda 函数进行自定义聚合。
lambda x: ‘OPEN’ if x.eq(‘OPEN’).any() else ‘CLOSED’：这是一个 lambda 函数，它接收一个 Series x（即分组后的 Status 列），使用 x.eq(‘OPEN’).any() 判断该 Series 中是否存在值为 ‘OPEN’ 的元素。如果存在，则返回 ‘OPEN’，否则返回 ‘CLOSED’。

方案二：预先转换状态列并使用 max() 函数

此方案首先将 Status 列的值转换为 ‘OPEN’ 或 ‘CLOSED’，然后使用 max() 函数进行聚合。由于 ‘OPEN’ 在字母顺序上大于 ‘CLOSED’，因此 max() 函数会返回 ‘OPEN’，如果组中存在至少一个 ‘OPEN’ 值。

import pandas as pd
import numpy as np
# 示例数据 (与方案一相同)
data = {'col1': [1, 1, 2, 2],
'col2': ['A', 'B', 'A', 'B'],
'col3': ['X', 'Y', 'X', 'Y'],
'col4': [10, 20, 30, 40],
'Status': ['OPEN', 'CLOSED', 'CLOSED', 'OPEN']}
df = pd.DataFrame(data)
# 预先转换状态列并使用 groupby() 和 agg() 函数
df_agg = (df.assign(Status = np.where(df['Status'].eq('OPEN'), 'OPEN', 'CLOSED'))
.groupby(['col1', 'col2', 'col3'], as_index=False)
.agg({'col4': 'sum', 'Status': 'max'}))
print(df_agg)

代码解释：

df.assign(Status = np.where(df[‘Status’].eq(‘OPEN’), ‘OPEN’, ‘CLOSED’))：使用 np.where() 函数将 Status 列的值转换为 ‘OPEN’ 或 ‘CLOSED’。
.groupby([‘col1’, ‘col2’, ‘col3’], as_index=False)：与方案一相同。
.agg({‘col4’: ‘sum’, ‘Status’: ‘max’})：对分组后的数据进行聚合。col4 列使用 sum 函数进行求和。Status 列使用 max() 函数进行聚合。

方案三：预先将状态列转换为布尔值并使用 any() 函数

此方案首先将 Status 列的值转换为布尔值（True 表示 ‘OPEN’，False 表示 ‘CLOSED’），然后使用 any() 函数进行聚合。最后，将聚合后的布尔值映射回 ‘OPEN’ 或 ‘CLOSED’。

import pandas as pd
import numpy as np
# 示例数据 (与方案一相同)
data = {'col1': [1, 1, 2, 2],
'col2': ['A', 'B', 'A', 'B'],
'col3': ['X', 'Y', 'X', 'Y'],
'col4': [10, 20, 30, 40],
'Status': ['OPEN', 'CLOSED', 'CLOSED', 'OPEN']}
df = pd.DataFrame(data)
# 预先将状态列转换为布尔值并使用 groupby() 和 agg() 函数
df_agg = (df.assign(Status = df['Status'].eq('OPEN'))
.groupby(['col1', 'col2', 'col3'], as_index=False)
.agg({'col4': 'sum', 'Status': 'any'})
.assign(Status = lambda x: x['Status'].map({True:'OPEN',False:'CLOSED'})))
print(df_agg)

代码解释：

df.assign(Status = df[‘Status’].eq(‘OPEN’))：将 Status 列的值转换为布尔值。
.groupby([‘col1’, ‘col2’, ‘col3’], as_index=False)：与方案一相同。
.agg({‘col4’: ‘sum’, ‘Status’: ‘any’})：对分组后的数据进行聚合。col4 列使用 sum 函数进行求和。Status 列使用 any() 函数进行聚合。
.assign(Status = lambda x: x[‘Status’].map({True:’OPEN’,False:’CLOSED’}))：将聚合后的布尔值映射回 ‘OPEN’ 或 ‘CLOSED’。

注意事项和总结

如果需要测试子字符串 ‘OPEN’ 而不是完整的字符串 ‘OPEN’，可以使用 x.str.contains(‘OPEN’).any() 代替 x.eq(‘OPEN’).any()。
方案二和方案三通常比方案一更有效率，因为它们避免了在 lambda 函数中进行复杂的条件判断。
在实际应用中，可以根据数据的具体情况选择最合适的方案。

总而言之，本文提供了多种方法来解决在 Pandas 分组聚合过程中，根据状态列的值来动态确定聚合结果的问题。通过灵活运用 groupby()、agg()、lambda 函数和 any() 方法，可以高效地处理各种数据分析任务。

温馨提示： 本文最后更新于2025-08-12 22:28:04，某些文章具有时效性，若有错误或已失效，请在下方留言或联系在线客服。

文章版权声明 1 本网站名称： 创客网
2 本站永久网址：https://new.ie310.com
1 本文采用非商业性使用-相同方式共享 4.0 国际许可协议[CC BY-NC-SA]进行授权
2 本站所有内容仅供参考，分享出来是为了可以给大家提供新的思路。
3 互联网转载资源会有一些其他联系方式，请大家不要盲目相信，被骗本站概不负责！
4 本网站只做项目揭秘，无法一对一教学指导，每篇文章内都含项目全套的教程讲解，请仔细阅读。
5 本站分享的所有平台仅供展示，本站不对平台真实性负责，站长建议大家自己根据项目关键词自己选择平台。
6 因为文章发布时间和您阅读文章时间存在时间差，所以有些项目红利期可能已经过了，能不能赚钱需要自己判断。
7 本网站仅做资源分享，不做任何收益保障，创业公司上收费几百上千的项目我免费分享出来的，希望大家可以认真学习。
8 本站所有资料均来自互联网公开分享，并不代表本站立场，如不慎侵犯到您的版权利益，请联系79283999@qq.com删除。

本站资料仅供学习交流使用请勿商业运营，严禁从事违法，侵权等任何非法活动，否则后果自负！

THE END

免费课程网创课程
# ai # 工具 # 聚合函数

文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中
文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中
文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中

12025不备货电商实战课：选品模型+上架运营+管理放大，解锁无货源新风口

221:44 速度，快买阿仕顿裤子

315:59 手淘搜索“猜答案抢免单”10月8日第二场答案预计：16:009月29日至10月9日用户根据页面

409:57 10点试用包邮1好主人犬粮40g，0.01好主人猫粮3段40g*3 不二宝贝鸡内金山楂饮

520:25 央视频是乱选还是必须选对？

622:14 部分地区三只松鼠千层酥蔓越莓味480g，9.9

热门广告位

使用 Pandas 进行分组聚合时，根据条件判断状态列的值

请登录后发表评论

12025不备货电商实战课：选品模型+上架运营+管理放大，解锁无货源新风口

221:44 速度，快买阿仕顿裤子

315:59 手淘搜索“猜答案抢免单”10月8日第二场答案预计：16:009月29日至10月9日用户根据页面

409:57 10点试用包邮1好主人 犬粮40g，0.01好主人 猫粮3段40g*3 不二宝贝 鸡内金山楂饮

520:25 央视频是乱选还是必须选对？

622:14 部分地区 三只松鼠 千层酥蔓越莓味480g，9.9

热门广告位

使用 Pandas 进行分组聚合时，根据条件判断状态列的值

请登录后发表评论

409:57 10点试用包邮1好主人犬粮40g，0.01好主人猫粮3段40g*3 不二宝贝鸡内金山楂饮

622:14 部分地区三只松鼠千层酥蔓越莓味480g，9.9