Pandas GroupBy 聚合：根据条件判断状态值-Python教程-PHP中文网

Pandas GroupBy 聚合：根据条件判断状态值

DDD

发布： 2025-08-12 21:42:35

原创

340人浏览过

pandas groupby 聚合：根据条件判断状态值

本文介绍了如何使用 Pandas 库进行数据分组聚合，并根据分组后的数据状态，最终确定该组的状态。在实际数据分析中，经常会遇到需要根据分组后的数据进行条件判断的情况，例如，判断一个用户是否在多个订单中至少有一个订单是未完成状态，或者判断一个产品在多个销售区域中是否至少在一个区域的销售额超过了某个阈值。本文将以一个具体的例子，详细介绍如何使用 Pandas 的 groupby() 和 agg() 函数实现这种需求。

问题描述

假设我们有一个 DataFrame，其中包含多个列，其中一列名为 Status，其值可能为 'OPEN' 或 'CLOSED'。我们需要根据其他列（例如 col1、col2 和 col3）对 DataFrame 进行分组，并对分组后的数据进行聚合。对于 Status 列，我们需要根据以下规则进行聚合：

如果组内至少有一个 'OPEN' 值，则聚合后的 Status 值为 'OPEN'。
否则，聚合后的 Status 值为 'CLOSED'。

解决方案

以下提供了几种不同的解决方案，每种方案都利用了 Pandas 的不同特性，以实现相同的目标。

方法一：使用 any() 函数

这种方法直接在 agg() 函数中使用 any() 函数来判断组内是否存在 'OPEN' 值。

import pandas as pd
import numpy as np

# 示例数据
data = {'col1': [1, 1, 2, 2, 1],
        'col2': ['A', 'B', 'A', 'B', 'A'],
        'col3': ['X', 'Y', 'X', 'Y', 'X'],
        'col4': [10, 20, 15, 25, 12],
        'Status': ['OPEN', 'CLOSED', 'CLOSED', 'OPEN', 'CLOSED']}
df = pd.DataFrame(data)

# 使用 any() 函数判断组内是否存在 'OPEN' 子字符串
df_agg = (df.groupby(['col1', 'col2', 'col3'], as_index=False)
           .agg({'col4': 'sum', 'Status': lambda x: 'OPEN' if x.str.contains('OPEN').any() else 'CLOSED'}))

print(df_agg)

# 使用 any() 函数判断组内是否存在 'OPEN' 字符串
df_agg = (df.groupby(['col1', 'col2', 'col3'], as_index=False)
           .agg({'col4': 'sum', 'Status': lambda x: 'OPEN' if x.eq('OPEN').any() else 'CLOSED'}))

print(df_agg)

登录后复制

代码解释：

x.str.contains('OPEN').any(): x 代表 Status 列的每个分组，x.str.contains('OPEN') 返回一个布尔 Series，表示每个值是否包含子字符串 "OPEN"。.any() 函数检查该 Series 中是否存在任何 True 值，即是否存在至少一个包含 "OPEN" 的字符串。
x.eq('OPEN').any(): x 代表 Status 列的每个分组，x.eq('OPEN') 返回一个布尔 Series，表示每个值是否等于字符串 "OPEN"。.any() 函数检查该 Series 中是否存在任何 True 值，即是否存在至少一个 "OPEN" 字符串。

方法二：预处理数据后使用 max() 函数

这种方法首先将 Status 列的值转换为 'OPEN' 或 'CLOSED'，然后使用 max() 函数进行聚合。由于 'OPEN' 在字母顺序上大于 'CLOSED'，因此 max() 函数会自动选择 'OPEN'，如果组内存在至少一个 'OPEN' 值。

# 测试子字符串 OPEN
df_agg = (df.assign(Status = np.where(df['Status'].str.contains('OPEN'),
                                      'OPEN', 'CLOSED'))
          .groupby(['col1', 'col2', 'col3'], as_index=False)
           .agg({'col4': 'sum', 'Status': 'max'}))

print(df_agg)

# 测试字符串 OPEN
df_agg = (df.assign(Status = np.where(df['Status'].eq('OPEN'),
                                      'OPEN', 'CLOSED'))
          .groupby(['col1', 'col2', 'col3'], as_index=False)
           .agg({'col4': 'sum', 'Status': 'max'}))

print(df_agg)

登录后复制

代码解释：

df.assign(Status = np.where(df['Status'].str.contains('OPEN'), 'OPEN', 'CLOSED')): 使用 np.where() 函数根据 Status 列的值创建一个新的 Status 列。如果原始 Status 列的值包含子字符串 "OPEN"，则新 Status 列的值为 'OPEN'，否则为 'CLOSED'。
df.assign(Status = np.where(df['Status'].eq('OPEN'), 'OPEN', 'CLOSED')): 使用 np.where() 函数根据 Status 列的值创建一个新的 Status 列。如果原始 Status 列的值等于字符串 "OPEN"，则新 Status 列的值为 'OPEN'，否则为 'CLOSED'。
.groupby(['col1', 'col2', 'col3'], as_index=False).agg({'col4': 'sum', 'Status': 'max'}): 使用 groupby() 函数根据 col1、col2 和 col3 列对 DataFrame 进行分组，然后使用 agg() 函数对分组后的数据进行聚合。对于 col4 列，使用 sum() 函数进行求和；对于 Status 列，使用 max() 函数获取最大值。

方法三：使用布尔值和 any() 函数

这种方法首先将 Status 列的值转换为布尔值（True 表示 'OPEN'，False 表示 'CLOSED'），然后使用 any() 函数进行聚合，最后将布尔值转换回 'OPEN' 或 'CLOSED'。

# 测试子字符串 OPEN
df_agg = (df.assign(Status = df['Status'].str.contains('OPEN'))
           .groupby(['col1', 'col2', 'col3'], as_index=False)
           .agg({'col4': 'sum', 'Status': 'any'})
           .assign(Status = lambda x: x['Status'].map({True:'OPEN',False:'CLOSED'}))

print(df_agg)

# 测试字符串 OPEN
df_agg = (df.assign(Status = df['Status'].eq('OPEN'))
           .groupby(['col1', 'col2', 'col3'], as_index=False)
           .agg({'col4': 'sum', 'Status': 'any'})
           .assign(Status = lambda x: x['Status'].map({True:'OPEN',False:'CLOSED'}))

print(df_agg)

登录后复制

代码解释：

df.assign(Status = df['Status'].str.contains('OPEN')): 使用 str.contains('OPEN') 函数将 Status 列的值转换为布尔值。如果原始 Status 列的值包含子字符串 "OPEN"，则新 Status 列的值为 True，否则为 False。
df.assign(Status = df['Status'].eq('OPEN')): 使用 eq('OPEN') 函数将 Status 列的值转换为布尔值。如果原始 Status 列的值等于字符串 "OPEN"，则新 Status 列的值为 True，否则为 False。
.groupby(['col1', 'col2', 'col3'], as_index=False).agg({'col4': 'sum', 'Status': 'any'}): 使用 groupby() 函数根据 col1、col2 和 col3 列对 DataFrame 进行分组，然后使用 agg() 函数对分组后的数据进行聚合。对于 col4 列，使用 sum() 函数进行求和；对于 Status 列，使用 any() 函数判断组内是否存在任何 True 值。
.assign(Status = lambda x: x['Status'].map({True:'OPEN',False:'CLOSED'})): 使用 map() 函数将布尔值转换回 'OPEN' 或 'CLOSED' 字符串。

总结

本文介绍了三种不同的方法，可以使用 Pandas 的 groupby() 和 agg() 函数，在分组聚合后，根据组内特定列的值来确定聚合后的状态值。选择哪种方法取决于具体的需求和数据特点。