在数据分析和处理过程中,我们经常需要处理包含重复记录的数据集。有时,我们的目标是识别并保留所有重复项,但要排除每组重复数据中的第一个出现。例如,在一个客户交易记录表中,我们可能只关心客户的第二次及后续交易,而忽略他们的首次交易。pandas库提供了duplicated()方法,可以非常优雅地解决这类问题。
Pandas DataFrame或Series的duplicated()方法用于标记重复的行或元素。它返回一个布尔型Series,其中True表示该行或元素是重复的,而False表示它是唯一的或者首次出现的。
duplicated()方法有一个关键参数keep,它决定了如何处理重复项:
当我们需要保留指定列的非首次重复行时,duplicated()方法的默认行为(keep='first')恰好符合我们的需求。
假设我们有一个包含客户ID、支付日期和支付金额的DataFrame,我们希望筛选出每个client_id的非首次交易记录。
1. 准备示例数据
首先,我们创建一个示例DataFrame来模拟实际场景:
import pandas as pd # 原始数据 data = { 'client_id': ['067858', '168226', '141424', '141424', '151525', '168226', '067858', '151525'], 'payment_date': ['2021-05-30', '2021-05-30', '2021-05-31', '2021-06-01', '2021-06-01', '2021-06-02', '2021-06-05', '2021-06-07'], 'value': [140.00, 150.00, 100.00, 150.00, 150.00, 115.00, 143.00, 82.00] } df = pd.DataFrame(data) df['payment_date'] = pd.to_datetime(df['payment_date']) print("原始DataFrame:") print(df)
输出的原始DataFrame如下:
原始DataFrame: client_id payment_date value 0 067858 2021-05-30 140.0 1 168226 2021-05-30 150.0 2 141424 2021-05-31 100.0 3 141424 2021-06-01 150.0 4 151525 2021-06-01 150.0 5 168226 2021-06-02 115.0 6 067858 2021-06-05 143.0 7 151525 2021-06-07 82.0
2. 使用 duplicated() 筛选数据
要保留client_id列中除首次出现外的所有重复行,我们只需对client_id列应用duplicated()方法,然后使用布尔索引来筛选DataFrame。
# 应用 duplicated() 方法,默认 keep='first' # 这将返回一个布尔Series,True表示该client_id是重复的(非首次出现) is_duplicate_except_first = df['client_id'].duplicated() # 使用布尔索引筛选DataFrame df_filtered = df[is_duplicate_except_first] print("\n筛选后的DataFrame (保留非首次重复行):") print(df_filtered)
执行上述代码后,我们将得到期望的输出:
筛选后的DataFrame (保留非首次重复行): client_id payment_date value 3 141424 2021-06-01 150.0 5 168226 2021-06-02 115.0 6 067858 2021-06-05 143.0 7 151525 2021-06-07 82.0
可以看到,对于client_id为'141424'、'168226'、'067858'和'151525'的记录,其首次出现已经被排除,只保留了后续的重复记录。
通过本文的介绍,您应该已经掌握了如何使用Pandas的duplicated()方法高效地筛选并保留DataFrame中指定列的非首次重复行。这一技巧在数据清洗、特征工程等多个数据处理环节中都非常实用。
以上就是Pandas教程:保留DataFrame中指定列的非首次重复行的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号