在数据分析任务中,我们经常需要处理时间序列数据,例如计算用户会话之间的时间间隔、订单处理时长等。当数据按某个标识符(如用户 ID)分组时,挑战在于如何高效地计算每个组内连续记录之间的时间差。传统的 Pandas groupby().apply() 方法在处理大数据集时可能效率低下。对于 Polars 而言,虽然 map_groups() 提供了一定的灵活性,但其性能通常不如原生表达式。
我们的目标是,给定一个包含 ID 和 Timestamp 列的 DataFrame,为每个 ID 计算一个新列 time_between_sessions,表示当前会话与上一个会话之间的时间间隔。
首先,我们创建一个示例 Pandas DataFrame,并将其转换为 Polars DataFrame。确保 Timestamp 列被正确解析为日期时间类型,这是进行时间计算的基础。
import polars as pl import pandas as pd # 创建一个示例 DataFrame data = { 'ID': ['A', 'A', 'A', 'B', 'B', 'B'], 'Timestamp': ['2023-01-01 10:00:00', '2023-01-01 10:30:00', '2023-01-01 11:00:00', '2023-01-01 12:00:00', '2023-01-01 12:30:00', '2023-01-01 13:00:00'] } df_pandas = pd.DataFrame(data) # 将 Pandas DataFrame 转换为 Polars DataFrame sessions_features = pl.from_pandas(df_pandas) # 确保 Timestamp 列是日期时间类型 sessions_features = sessions_features.with_columns( pl.col("Timestamp").str.to_datetime() ) print("原始 Polars DataFrame:") print(sessions_features)
输出:
原始 Polars DataFrame: shape: (6, 2) ┌─────┬─────────────────────┐ │ ID ┆ Timestamp │ │ --- ┆ --- │ │ str ┆ datetime[μs] │ ╞═════╪═════════════════════╡ │ A ┆ 2023-01-01 10:00:00 │ │ A ┆ 2023-01-01 10:30:00 │ │ A ┆ 2023-01-01 11:00:00 │ │ B ┆ 2023-01-01 12:00:00 │ │ B ┆ 2023-01-01 12:30:00 │ │ B ┆ 2023-01-01 13:00:00 │ └─────┴─────────────────────┘
Polars 提供了强大的表达式 API 和窗口函数,其中 pl.Expr.over() 是解决此类分组计算问题的理想选择。它允许我们在不显式使用 group_by() 的情况下,对指定分组(分区)执行聚合或转换操作。
核心思路是:
以下是实现代码:
# 计算每个 ID 的会话之间的时间差 sessions_features_with_time_diff = sessions_features.with_columns( pl.col("Timestamp") .diff() .dt.total_seconds() .fill_null(0) .over("ID") .alias("time_between_sessions") ) print("\n计算时间差后的 Polars DataFrame:") print(sessions_features_with_time_diff)
预期输出:
计算时间差后的 Polars DataFrame: shape: (6, 3) ┌─────┬─────────────────────┬───────────────────────┐ │ ID ┆ Timestamp ┆ time_between_sessions │ │ --- ┆ --- ┆ --- │ │ str ┆ datetime[μs] ┆ i64 │ ╞═════╪═════════════════════╪═══════════════════════╡ │ A ┆ 2023-01-01 10:00:00 ┆ 0 │ │ A ┆ 2023-01-01 10:30:00 ┆ 1800 │ │ A ┆ 2023-01-01 11:00:00 ┆ 1800 │ │ B ┆ 2023-01-01 12:00:00 ┆ 0 │ │ B ┆ 2023-01-01 12:30:00 ┆ 1800 │ │ B ┆ 2023-01-01 13:00:00 ┆ 1800 │ └─────┴─────────────────────┴───────────────────────┘
从输出可以看出,对于 ID 'A' 和 'B',它们各自的第一个会话的 time_between_sessions 值为 0,而后续会话的时间间隔则被正确计算为 1800 秒(30 分钟)。
通过利用 Polars 的 pl.Expr.over() 窗口函数,我们可以优雅且高效地在每个分组内执行时间序列的差值计算。这种方法避免了传统循环或低效的 apply 操作,充分发挥了 Polars 的列式和并行处理优势,是处理大规模时间序列数据时的首选方案。掌握 over() 的使用,将极大提升你在 Polars 中进行复杂分组计算的能力。
以上就是Polars 中高效计算分组内时间序列差值的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号