在数据分析中,我们经常需要对数据进行分组聚合。Pandas的groupby()函数是实现这一目标的核心工具。然而,当需求是针对某一列中“连续出现”的相同值进行分组时,传统的df.groupby('column_name')方法可能无法满足要求。这是因为传统groupby会将所有具有相同值的行聚合在一起,而不管它们在原始数据框中的位置是否连续。
例如,考虑以下数据集:
import pandas as pd data = { 'Fruits': ['Apple', 'Apple', 'Banana', 'Orange', 'Apple', 'Apple'], 'Price': [20, 30, 50, 170, 55, 90] } df = pd.DataFrame(data) print(df)
输出:
Fruits Price 0 Apple 20 1 Apple 30 2 Banana 50 3 Orange 170 4 Apple 55 5 Apple 90
我们的目标是计算每组连续相同水果的最高价格。具体来说,我们希望第一组连续的“Apple” (索引0, 1) 的最大价格是30,而第二组连续的“Apple” (索引4, 5) 的最大价格是90。如果直接使用 df.groupby('Fruits')['Price'].max(),结果会是所有“Apple”中的最大值90,这不符合按连续块分组的要求。
要解决这个问题,我们需要一个机制来为每一段连续的相同值生成一个唯一的组标识符。Pandas提供了强大的工具组合来实现这一点:shift()、ne()(或!=)和cumsum()。
首先,我们需要识别出连续块开始的位置。这可以通过比较当前行的值与上一行的值来实现。如果它们不相等,则意味着一个新的连续块开始了。
# 比较当前行与上一行'Fruits'列的值是否不相等 # df.Fruits.shift() 会将'Fruits'列向下移动一位,第一位变为NaN # df.Fruits.ne(...) 等同于 df.Fruits != ... new_block_start = df.Fruits.ne(df.Fruits.shift()) print(new_block_start)
输出:
0 True # 'Apple'与NaN不相等,视为新块开始 1 False # 'Apple'与'Apple'相等 2 True # 'Banana'与'Apple'不相等,新块开始 3 True # 'Orange'与'Banana'不相等,新块开始 4 True # 'Apple'与'Orange'不相等,新块开始 5 False # 'Apple'与'Apple'相等 Name: Fruits, dtype: bool
这个布尔序列准确地标记了每个新连续块的起始位置。
有了新块的起始标记,我们可以使用 cumsum()(累积求和)来生成唯一的组ID。cumsum()会将 True 视为1,False 视为0,并进行累加。每当遇到一个 True(即新块开始),累加值就会增加1,从而为该连续块分配一个唯一的ID。
grp = df.Fruits.ne(df.Fruits.shift()).cumsum() print(grp)
输出:
0 1 1 1 2 2 3 3 4 4 5 4 Name: Fruits, dtype: int64
现在,我们得到了一个完美的组ID序列:
每个连续的相同水果类型都拥有了一个独特的组ID。
有了这个动态生成的分组键 grp,我们就可以使用 groupby() 进行分组聚合了。关键在于使用 transform('max') 而不是 agg('max')。
# 完整的解决方案代码 grp = df.Fruits.ne(df.Fruits.shift()).cumsum() df['Max'] = df.groupby(grp)['Price'].transform('max') print(df)
最终输出:
Fruits Price Max 0 Apple 20 30 1 Apple 30 30 2 Banana 50 50 3 Orange 170 170 4 Apple 55 90 5 Apple 90 90
结果完全符合我们的预期:第一组连续的“Apple”的最大值是30,第二组连续的“Apple”的最大值是90。其他水果也各自计算了其连续块内的最大值(由于它们是单行块,最大值就是其自身价格)。
通过巧妙地结合使用 shift()、ne() 和 cumsum() 来创建动态分组键,并配合 groupby() 和 transform() 方法,Pandas能够高效且准确地实现对数据框中连续相同值块的聚合操作。这种方法比传统的循环或简单的groupby更具效率和灵活性,是处理复杂分组聚合需求时的强大工具。
以上就是Pandas技巧:高效处理连续相同值分组并计算聚合统计量的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号