值得一看
双11 12
广告
广告

使用 Pandas 比对 DataFrame 中的多列并查找不匹配项

使用 pandas 比对 dataframe 中的多列并查找不匹配项

本文介绍了如何使用 Pandas 库有效地比较两个 DataFrame 中的多个列,并找出所有列的值完全匹配的行。我们将探讨使用 pd.merge 函数,结合 indicator 参数来识别差异行的方法,并提供示例代码和注意事项,确保结果的准确性和可靠性。通过本文,您将掌握在 Pandas 中进行复杂数据比对的技巧。

在数据分析和处理中,经常需要比较两个 DataFrame 的数据,找出差异。当需要比较多个列时,简单地逐行比较可能效率低下。 Pandas 提供了强大的 merge 函数,结合 indicator 参数,可以方便地找出两个 DataFrame 中指定列完全匹配的行,并识别出不匹配的行。

使用 pd.merge 查找不匹配项

pd.merge 函数可以根据一个或多个列将两个 DataFrame 连接起来。通过设置 how 参数为 ‘right’,我们可以保留右侧 DataFrame (例如 df_new) 的所有行。通过设置 indicator 参数为 True,merge 函数会添加一个名为 _merge 的列,指示每一行来自哪个 DataFrame。_merge 列的值可以是 ‘left_only’(仅在左侧 DataFrame 中存在),’right_only’(仅在右侧 DataFrame 中存在),或 ‘both’(在两个 DataFrame 中都存在)。

以下是一个示例:

import pandas as pd
# 创建示例 DataFrame
df_old = pd.DataFrame({'column1': ['x', 'a'],
'column2': ['y', 'b'],
'column3': ['z', 'c']})
df_new = pd.DataFrame({'column1': ['a', 'x'],
'column2': ['b', 'y'],
'column3': ['c', 'z']})
# 使用 pd.merge 进行比较
merged_df = pd.merge(df_old, df_new, on=['column1','column2','column3'], how='right', indicator=True)
# 筛选出仅在右侧 DataFrame 中存在的行(不匹配的行)
mismatched_rows = merged_df[merged_df['_merge'] == 'right_only']
# 删除 indicator 列
mismatched_rows = mismatched_rows.drop('_merge', axis=1)
# 打印不匹配的行
print(mismatched_rows)

在这个例子中,df_old 和 df_new 包含相同的数据,但顺序不同。merge 函数会根据 column1, column2 和 column3 进行比较。由于两个 DataFrame 中都存在相同的行,即使顺序不同,_merge 列的值也会是 both,因此 mismatched_rows 将为空。如果 df_new 中有 df_old 中没有的行,这些行会被识别为不匹配。

代码解释:

  1. 导入 Pandas 库: import pandas as pd 导入 Pandas 库,并将其别名为 pd。
  2. 创建示例 DataFrame: 创建两个名为 df_old 和 df_new 的 DataFrame,包含示例数据。
  3. 使用 pd.merge 进行比较: pd.merge(df_old, df_new, on=[‘column1′,’column2′,’column3′], how=’right’, indicator=True) 使用 pd.merge 函数将两个 DataFrame 合并。

    • on=[‘column1′,’column2′,’column3’] 指定用于合并的列。
    • how=’right’ 指定合并方式为右连接,即保留右侧 DataFrame (df_new) 的所有行。
    • indicator=True 添加一个名为 _merge 的列,指示每一行来自哪个 DataFrame。
  4. 筛选出不匹配的行: mismatched_rows = merged_df[merged_df[‘_merge’] == ‘right_only’] 筛选出 _merge 列值为 ‘right_only’ 的行,这些行表示仅在右侧 DataFrame (df_new) 中存在的行,即不匹配的行。
  5. 删除 indicator 列: mismatched_rows = mismatched_rows.drop(‘_merge’, axis=1) 删除 _merge 列,因为它不再需要。
  6. 打印不匹配的行: print(mismatched_rows) 打印不匹配的行。

注意事项:

  • Pandas 版本: 确保你的 Pandas 版本是最新的。旧版本可能会有 bug,导致不正确的结果。
  • 数据类型: 确保用于比较的列的数据类型一致。如果数据类型不一致,可能会导致错误的结果。
  • 缺失值: merge 函数会处理缺失值。如果你的数据包含缺失值,请确保你理解 merge 函数如何处理它们。
  • 顺序: merge 函数会考虑行的顺序。如果行的顺序不同,即使数据相同,也会被认为是不同的行。

总结:

使用 Pandas 的 pd.merge 函数结合 indicator 参数,可以有效地比较 DataFrame 中的多个列,并找出不匹配的行。这种方法比逐行比较更高效,并且可以处理大型数据集。通过理解 merge 函数的工作原理和注意事项,你可以确保结果的准确性和可靠性。

温馨提示: 本文最后更新于2025-08-13 22:27:40,某些文章具有时效性,若有错误或已失效,请在下方留言或联系易赚网
文章版权声明 1 本网站名称: 创客网
2 本站永久网址:https://new.ie310.com
1 本文采用非商业性使用-相同方式共享 4.0 国际许可协议[CC BY-NC-SA]进行授权
2 本站所有内容仅供参考,分享出来是为了可以给大家提供新的思路。
3 互联网转载资源会有一些其他联系方式,请大家不要盲目相信,被骗本站概不负责!
4 本网站只做项目揭秘,无法一对一教学指导,每篇文章内都含项目全套的教程讲解,请仔细阅读。
5 本站分享的所有平台仅供展示,本站不对平台真实性负责,站长建议大家自己根据项目关键词自己选择平台。
6 因为文章发布时间和您阅读文章时间存在时间差,所以有些项目红利期可能已经过了,能不能赚钱需要自己判断。
7 本网站仅做资源分享,不做任何收益保障,创业公司上收费几百上千的项目我免费分享出来的,希望大家可以认真学习。
8 本站所有资料均来自互联网公开分享,并不代表本站立场,如不慎侵犯到您的版权利益,请联系79283999@qq.com删除。

本站资料仅供学习交流使用请勿商业运营,严禁从事违法,侵权等任何非法活动,否则后果自负!
THE END
喜欢就支持一下吧
点赞9赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容