值得一看
双11 12
广告
广告

Python数据整合:基于键值匹配高效合并字典列表

python数据整合:基于键值匹配高效合并字典列表

本教程详细阐述了如何在Python中高效地将多个字典列表进行合并与数据补充。通过匹配特定键的值,我们可以将来自不同源列表(如listA和listB)的额外信息(如original_name和original_address)整合到主数据列表(dataList)的每个字典条目中,从而构建一个包含所有所需字段的全新字典列表。本文将提供实用的代码示例和最佳实践,帮助读者掌握此类数据整合技巧。

在数据处理过程中,我们经常会遇到需要从多个数据源整合信息以构建一个更完整数据集的场景。例如,你可能有一个包含核心记录的列表,以及其他包含补充属性的辅助列表。目标是根据共同的标识符(如名称或地址)将这些补充属性添加到核心记录中。

场景描述与挑战

假设我们有以下三个字典列表:

  • listA:包含 name 和 original_name,用于提供原始名称信息。
  • listB:包含 address 和 original_address,用于提供原始地址信息。
  • dataList:主数据列表,包含 id, created_at, name, address 等核心信息。

我们的任务是创建一个新的列表 finalList,它基于 dataList,但同时从 listA 中匹配 name 字段,并添加 original_name;从 listB 中匹配 address 字段,并添加 original_address。

原始数据示例如下:

立即学习“Python免费学习笔记(深入)”;

listA = [
{
"name": "name sample 1",
"original_name" : "original name sample 1",
},
{
"name": "name sample 2",
"original_name" : "original name sample 2",
}
]
listB = [
{
"address": "address sample 1",
"original_address" : "original address sample 1",
},
{
"address": "address sample 2",
"original_address" : "original address sample 2",
}
]
dataList = [
{
"id": "1",
"created_at": "date 1",
"name": "name sample 1",
"address": "address sample 1",
},
{
"id": "2",
"created_at": "date 2",
"name": "name sample 2",
"address": "address sample 2",
}
]

期望的 finalList 结构应为:

finalList = [
{
"id": "1",
"created_at": "date 1",
"name": "name sample 1",
"original_name" : "original name sample 1",
"address": "address sample 1",
"original_address" : "original address sample 1",
},
{
"id": "2",
"created_at": "date 2",
"name": "name sample 2",
"original_name" : "original name sample 2",
"address": "address sample 2",
"original_address" : "original address sample 2",
}
]

解决方案:基于嵌套循环的匹配与更新

一种直观且有效的方法是利用 Python 的循环结构,遍历辅助列表,并在主列表中查找匹配项进行更新。为了避免修改原始 dataList,我们首先创建一个它的深拷贝。

核心思路

  1. 复制主列表:使用 copy 模块的 deepcopy 函数创建 dataList 的一个独立副本,作为我们最终操作的 finalList。
  2. 合并辅助列表:将 listA 和 listB 合并成一个迭代器(通过 listA + listB),这样可以一次性处理所有补充数据。
  3. 遍历并匹配更新

    • 对于合并后的每个辅助字典条目 (entry):
    • 判断 entry 中包含的是 name 还是 address 键,以确定其来源。
    • 根据判断结果,遍历 finalList 中的每个字典 (data)。
    • 如果 data 中相应的匹配键值与 entry 中的键值匹配,则将 entry 中对应的 original_ 字段添加到 data 中。

示例代码

from copy import deepcopy
# 原始数据定义 (与上述场景描述一致)
listA = [
{"name": "name sample 1", "original_name" : "original name sample 1"},
{"name": "name sample 2", "original_name" : "original name sample 2"}
]
listB = [
{"address": "address sample 1", "original_address" : "original address sample 1"},
{"address": "address sample 2", "original_address" : "original address sample 2"}
]
dataList = [
{"id": "1", "created_at": "date 1", "name": "name sample 1", "address": "address sample 1"},
{"id": "2", "created_at": "date 2", "name": "name sample 2", "address": "address sample 2"}
]
# 1. 创建dataList的深拷贝,避免修改原始数据
finalList = deepcopy(dataList)
# 2. 遍历listA和listB的合并结果
# 这种方式巧妙地将两个不同类型的补充数据统一处理
for entry in listA + listB:
# 3. 根据entry中存在的键(name或address)进行判断
if "name" in entry:
# 如果是来自listA的条目,则匹配name并添加original_name
for data in finalList:
if data['name'] == entry['name']:
data['original_name'] = entry['original_name']
elif "address" in entry:
# 如果是来自listB的条目,则匹配address并添加original_address
for data in finalList:
if data['address'] == entry['address']:
data['original_address'] = entry['original_address']
# 打印结果,验证原始dataList未被修改,且finalList已包含所需信息
print("原始dataList (未修改):")
print(dataList)
print("\n合并后的finalList:")
print(finalList)

运行结果

原始dataList (未修改):
[{'id': '1', 'created_at': 'date 1', 'name': 'name sample 1', 'address': 'address sample 1'}, {'id': '2', 'created_at': 'date 2', 'name': 'name sample 2', 'address': 'address sample 2'}]
合并后的finalList:
[{'id': '1', 'created_at': 'date 1', 'name': 'name sample 1', 'address': 'address sample 1', 'original_name': 'original name sample 1', 'original_address': 'original address sample 1'}, {'id': '2', 'created_at': 'date 2', 'name': 'name sample 2', 'address': 'address sample 2', 'original_name': 'original name sample 2', 'original_address': 'original address sample 2'}]

注意事项与性能优化

上述方法对于小规模数据是有效且易于理解的。然而,当列表规模非常大时,嵌套循环的性能会成为瓶颈。其时间复杂度为 O(M * N),其中 M 是 listA + listB 的总长度,N 是 finalList 的长度。对于大型数据集,可以考虑以下优化策略:

1. 使用字典进行预处理(哈希映射)

将辅助列表转换为字典(哈希映射),以实现 O(1) 的平均查找时间。这将把整体时间复杂度降低到 O(M + N),因为预处理和最终遍历

温馨提示: 本文最后更新于2025-07-02 22:30:27,某些文章具有时效性,若有错误或已失效,请在下方留言或联系易赚网
文章版权声明 1 本网站名称: 创客网
2 本站永久网址:https://new.ie310.com
1 本文采用非商业性使用-相同方式共享 4.0 国际许可协议[CC BY-NC-SA]进行授权
2 本站所有内容仅供参考,分享出来是为了可以给大家提供新的思路。
3 互联网转载资源会有一些其他联系方式,请大家不要盲目相信,被骗本站概不负责!
4 本网站只做项目揭秘,无法一对一教学指导,每篇文章内都含项目全套的教程讲解,请仔细阅读。
5 本站分享的所有平台仅供展示,本站不对平台真实性负责,站长建议大家自己根据项目关键词自己选择平台。
6 因为文章发布时间和您阅读文章时间存在时间差,所以有些项目红利期可能已经过了,能不能赚钱需要自己判断。
7 本网站仅做资源分享,不做任何收益保障,创业公司上收费几百上千的项目我免费分享出来的,希望大家可以认真学习。
8 本站所有资料均来自互联网公开分享,并不代表本站立场,如不慎侵犯到您的版权利益,请联系79283999@qq.com删除。

本站资料仅供学习交流使用请勿商业运营,严禁从事违法,侵权等任何非法活动,否则后果自负!
THE END
喜欢就支持一下吧
点赞10赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容