如何从大型 PostgreSQL 表中高效地选择随机行？-mysql教程-PHP中文网

首页

数据库

mysql教程

如何从大型 PostgreSQL 表中高效地选择随机行？

Barbara Streisand

Jan 21, 2025 am 05:26 AM

How to Efficiently Select Random Rows from Large PostgreSQL Tables?

PostgreSQL随机行选择方法

处理包含数百万甚至数十亿条记录的大型表时，传统的随机行选择方法效率低下且速度缓慢。两种常见方法是：

使用random()过滤:

  select * from table where random() < 0.001;

登录后复制

使用order by random()和limit:

  select * from table order by random() limit 1000;

登录后复制

然而，由于需要全表扫描或排序，这些方法对于行数较多的表并非最佳选择，会导致性能瓶颈。

大型表的优化方法

对于以下类型的表，请考虑以下优化方法，其速度明显更快：

具有少量或中等间隙的数值ID列（已建立索引以加快查找速度）
在选择过程中没有或只有最少的写入操作

查询：

WITH params AS (
  SELECT 1 AS min_id, -- 可选：自定义最小ID起始值
       5100000 AS id_span -- 近似ID范围（最大ID - 最小ID + 缓冲）
)
SELECT *
FROM (
  SELECT DISTINCT 1 + trunc(random() * p.id_span)::integer AS id
  FROM params p, generate_series(1, 1100) g
  GROUP BY 1
) r
INNER JOIN big ON r.id = big.id
LIMIT 1000;

登录后复制

工作原理：

ID范围估计：
- 如果不精确知道，则查询表以估计ID列的最小值、最大值和总跨度（最大值 - 最小值）。
随机ID生成：
- 在估计的ID范围内生成一组不同的随机数。
冗余和重复消除：
- 对生成的数字进行分组以去除重复项，减少选择缺失行或已选择行的可能性。
表连接和限制：
- 使用ID列（必须建立索引）将随机数与实际表连接。此高效连接检索所选行的相应数据。
- 最后，应用限制以检索所需的行数。

为什么它速度快：

最小的索引使用：
- 查询仅对ID列执行索引扫描，比全表扫描或排序操作快得多。
优化的随机数生成：
- 生成的随机数分布在估计的ID范围内，最大限度地减少了缺失或重叠行的可能性。
冗余和重复消除：
- 对生成的数字进行分组可确保只选择不同的行，从而减少了消除重复项所需的额外过滤或连接。

其他选项：

处理间隙的递归CTE：
- 对于ID序列中存在间隙的表，请添加一个额外的CTE来处理这些间隙。
函数包装器以供重用：
- 定义一个函数，该函数采用限制和间隙百分比作为参数，允许轻松配置并与不同的表重用。
任何表的通用函数：
- 创建一个通用函数，该函数接受任何具有整数列的表作为参数。
物化视图以提高速度：
- 考虑基于优化查询创建物化视图，以便更快地检索（准）随机选择的行。
PostgreSQL 9.5中的TABLE SAMPLE：
- 利用PostgreSQL的“TABLE SAMPLE SYSTEM”功能，实现更快但随机性较低的行采样方法，确保返回精确的行数。但是，请记住，由于聚类效应，样本可能不是完全随机的。

以上是如何从大型 PostgreSQL 表中高效地选择随机行？的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1664

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

显示更多

Related knowledge

MySQL的角色：Web应用程序中的数据库 Apr 17, 2025 am 12:23 AM

MySQL在Web应用中的主要作用是存储和管理数据。1.MySQL高效处理用户信息、产品目录和交易记录等数据。2.通过SQL查询，开发者能从数据库提取信息生成动态内容。3.MySQL基于客户端-服务器模型工作，确保查询速度可接受。

说明InnoDB重做日志和撤消日志的作用。 Apr 15, 2025 am 12:16 AM

InnoDB使用redologs和undologs确保数据一致性和可靠性。1.redologs记录数据页修改，确保崩溃恢复和事务持久性。2.undologs记录数据原始值，支持事务回滚和MVCC。

MySQL：世界上最受欢迎的数据库的简介 Apr 12, 2025 am 12:18 AM

MySQL是一种开源的关系型数据库管理系统，主要用于快速、可靠地存储和检索数据。其工作原理包括客户端请求、查询解析、执行查询和返回结果。使用示例包括创建表、插入和查询数据，以及高级功能如JOIN操作。常见错误涉及SQL语法、数据类型和权限问题，优化建议包括使用索引、优化查询和分表分区。

MySQL的位置：数据库和编程 Apr 13, 2025 am 12:18 AM

MySQL在数据库和编程中的地位非常重要，它是一个开源的关系型数据库管理系统，广泛应用于各种应用场景。1）MySQL提供高效的数据存储、组织和检索功能，支持Web、移动和企业级系统。2）它使用客户端-服务器架构，支持多种存储引擎和索引优化。3）基本用法包括创建表和插入数据，高级用法涉及多表JOIN和复杂查询。4）常见问题如SQL语法错误和性能问题可以通过EXPLAIN命令和慢查询日志调试。5）性能优化方法包括合理使用索引、优化查询和使用缓存，最佳实践包括使用事务和PreparedStatemen