如何从大型 PostgreSQL 表中高效地选择随机行?
PostgreSQL随机行选择方法
处理包含数百万甚至数十亿条记录的大型表时,传统的随机行选择方法效率低下且速度缓慢。两种常见方法是:
-
使用
random()
过滤:select * from table where random() < 0.001;
登录后复制 -
使用
order by random()
和limit
:select * from table order by random() limit 1000;
登录后复制
然而,由于需要全表扫描或排序,这些方法对于行数较多的表并非最佳选择,会导致性能瓶颈。
大型表的优化方法
对于以下类型的表,请考虑以下优化方法,其速度明显更快:
- 具有少量或中等间隙的数值ID列(已建立索引以加快查找速度)
- 在选择过程中没有或只有最少的写入操作
查询:
WITH params AS ( SELECT 1 AS min_id, -- 可选:自定义最小ID起始值 5100000 AS id_span -- 近似ID范围(最大ID - 最小ID + 缓冲) ) SELECT * FROM ( SELECT DISTINCT 1 + trunc(random() * p.id_span)::integer AS id FROM params p, generate_series(1, 1100) g GROUP BY 1 ) r INNER JOIN big ON r.id = big.id LIMIT 1000;
工作原理:
-
ID范围估计:
- 如果不精确知道,则查询表以估计ID列的最小值、最大值和总跨度(最大值 - 最小值)。
-
随机ID生成:
- 在估计的ID范围内生成一组不同的随机数。
-
冗余和重复消除:
- 对生成的数字进行分组以去除重复项,减少选择缺失行或已选择行的可能性。
-
表连接和限制:
- 使用ID列(必须建立索引)将随机数与实际表连接。此高效连接检索所选行的相应数据。
- 最后,应用限制以检索所需的行数。
为什么它速度快:
-
最小的索引使用:
- 查询仅对ID列执行索引扫描,比全表扫描或排序操作快得多。
-
优化的随机数生成:
- 生成的随机数分布在估计的ID范围内,最大限度地减少了缺失或重叠行的可能性。
-
冗余和重复消除:
- 对生成的数字进行分组可确保只选择不同的行,从而减少了消除重复项所需的额外过滤或连接。
其他选项:
-
处理间隙的递归CTE:
- 对于ID序列中存在间隙的表,请添加一个额外的CTE来处理这些间隙。
-
函数包装器以供重用:
- 定义一个函数,该函数采用限制和间隙百分比作为参数,允许轻松配置并与不同的表重用。
-
任何表的通用函数:
- 创建一个通用函数,该函数接受任何具有整数列的表作为参数。
-
物化视图以提高速度:
- 考虑基于优化查询创建物化视图,以便更快地检索(准)随机选择的行。
-
PostgreSQL 9.5中的
TABLE SAMPLE
:- 利用PostgreSQL的“
TABLE SAMPLE SYSTEM
”功能,实现更快但随机性较低的行采样方法,确保返回精确的行数。但是,请记住,由于聚类效应,样本可能不是完全随机的。
- 利用PostgreSQL的“
以上是如何从大型 PostgreSQL 表中高效地选择随机行?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

MySQL在Web应用中的主要作用是存储和管理数据。1.MySQL高效处理用户信息、产品目录和交易记录等数据。2.通过SQL查询,开发者能从数据库提取信息生成动态内容。3.MySQL基于客户端-服务器模型工作,确保查询速度可接受。

InnoDB使用redologs和undologs确保数据一致性和可靠性。1.redologs记录数据页修改,确保崩溃恢复和事务持久性。2.undologs记录数据原始值,支持事务回滚和MVCC。

MySQL是一种开源的关系型数据库管理系统,主要用于快速、可靠地存储和检索数据。其工作原理包括客户端请求、查询解析、执行查询和返回结果。使用示例包括创建表、插入和查询数据,以及高级功能如JOIN操作。常见错误涉及SQL语法、数据类型和权限问题,优化建议包括使用索引、优化查询和分表分区。

MySQL在数据库和编程中的地位非常重要,它是一个开源的关系型数据库管理系统,广泛应用于各种应用场景。1)MySQL提供高效的数据存储、组织和检索功能,支持Web、移动和企业级系统。2)它使用客户端-服务器架构,支持多种存储引擎和索引优化。3)基本用法包括创建表和插入数据,高级用法涉及多表JOIN和复杂查询。4)常见问题如SQL语法错误和性能问题可以通过EXPLAIN命令和慢查询日志调试。5)性能优化方法包括合理使用索引、优化查询和使用缓存,最佳实践包括使用事务和PreparedStatemen

选择MySQL的原因是其性能、可靠性、易用性和社区支持。1.MySQL提供高效的数据存储和检索功能,支持多种数据类型和高级查询操作。2.采用客户端-服务器架构和多种存储引擎,支持事务和查询优化。3.易于使用,支持多种操作系统和编程语言。4.拥有强大的社区支持,提供丰富的资源和解决方案。

MySQL与其他编程语言相比,主要用于存储和管理数据,而其他语言如Python、Java、C 则用于逻辑处理和应用开发。 MySQL以其高性能、可扩展性和跨平台支持着称,适合数据管理需求,而其他语言在各自领域如数据分析、企业应用和系统编程中各有优势。

MySQL适合小型和大型企业。1)小型企业可使用MySQL进行基本数据管理,如存储客户信息。2)大型企业可利用MySQL处理海量数据和复杂业务逻辑,优化查询性能和事务处理。

MySQL索引基数对查询性能有显着影响:1.高基数索引能更有效地缩小数据范围,提高查询效率;2.低基数索引可能导致全表扫描,降低查询性能;3.在联合索引中,应将高基数列放在前面以优化查询。
