首页 数据库 mysql教程 如何从大型 PostgreSQL 表中高效地选择随机行?

如何从大型 PostgreSQL 表中高效地选择随机行?

Jan 21, 2025 am 05:26 AM

How to Efficiently Select Random Rows from Large PostgreSQL Tables?

PostgreSQL随机行选择方法

处理包含数百万甚至数十亿条记录的大型表时,传统的随机行选择方法效率低下且速度缓慢。两种常见方法是:

  • 使用random()过滤:

      select * from table where random() < 0.001;
    登录后复制
  • 使用order by random()limit:

      select * from table order by random() limit 1000;
    登录后复制

然而,由于需要全表扫描或排序,这些方法对于行数较多的表并非最佳选择,会导致性能瓶颈。

大型表的优化方法

对于以下类型的表,请考虑以下优化方法,其速度明显更快:

  • 具有少量或中等间隙的数值ID列(已建立索引以加快查找速度)
  • 在选择过程中没有或只有最少的写入操作

查询:

WITH params AS (
  SELECT 1 AS min_id, -- 可选:自定义最小ID起始值
       5100000 AS id_span -- 近似ID范围(最大ID - 最小ID + 缓冲)
)
SELECT *
FROM (
  SELECT DISTINCT 1 + trunc(random() * p.id_span)::integer AS id
  FROM params p, generate_series(1, 1100) g
  GROUP BY 1
) r
INNER JOIN big ON r.id = big.id
LIMIT 1000;
登录后复制

工作原理:

  • ID范围估计:

    • 如果不精确知道,则查询表以估计ID列的最小值、最大值和总跨度(最大值 - 最小值)。
  • 随机ID生成:

    • 在估计的ID范围内生成一组不同的随机数。
  • 冗余和重复消除:

    • 对生成的数字进行分组以去除重复项,减少选择缺失行或已选择行的可能性。
  • 表连接和限制:

    • 使用ID列(必须建立索引)将随机数与实际表连接。此高效连接检索所选行的相应数据。
    • 最后,应用限制以检索所需的行数。

为什么它速度快:

  • 最小的索引使用:

    • 查询仅对ID列执行索引扫描,比全表扫描或排序操作快得多。
  • 优化的随机数生成:

    • 生成的随机数分布在估计的ID范围内,最大限度地减少了缺失或重叠行的可能性。
  • 冗余和重复消除:

    • 对生成的数字进行分组可确保只选择不同的行,从而减少了消除重复项所需的额外过滤或连接。

其他选项:

  • 处理间隙的递归CTE:

    • 对于ID序列中存在间隙的表,请添加一个额外的CTE来处理这些间隙。
  • 函数包装器以供重用:

    • 定义一个函数,该函数采用限制和间隙百分比作为参数,允许轻松配置并与不同的表重用。
  • 任何表的通用函数:

    • 创建一个通用函数,该函数接受任何具有整数列的表作为参数。
  • 物化视图以提高速度:

    • 考虑基于优化查询创建物化视图,以便更快地检索(准)随机选择的行。
  • PostgreSQL 9.5中的TABLE SAMPLE

    • 利用PostgreSQL的“TABLE SAMPLE SYSTEM”功能,实现更快但随机性较低的行采样方法,确保返回精确的行数。但是,请记住,由于聚类效应,样本可能不是完全随机的。

以上是如何从大型 PostgreSQL 表中高效地选择随机行?的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1664
14
CakePHP 教程
1423
52
Laravel 教程
1321
25
PHP教程
1269
29
C# 教程
1249
24
MySQL的角色:Web应用程序中的数据库 MySQL的角色:Web应用程序中的数据库 Apr 17, 2025 am 12:23 AM

MySQL在Web应用中的主要作用是存储和管理数据。1.MySQL高效处理用户信息、产品目录和交易记录等数据。2.通过SQL查询,开发者能从数据库提取信息生成动态内容。3.MySQL基于客户端-服务器模型工作,确保查询速度可接受。

说明InnoDB重做日志和撤消日志的作用。 说明InnoDB重做日志和撤消日志的作用。 Apr 15, 2025 am 12:16 AM

InnoDB使用redologs和undologs确保数据一致性和可靠性。1.redologs记录数据页修改,确保崩溃恢复和事务持久性。2.undologs记录数据原始值,支持事务回滚和MVCC。

MySQL:世界上最受欢迎的数据库的简介 MySQL:世界上最受欢迎的数据库的简介 Apr 12, 2025 am 12:18 AM

MySQL是一种开源的关系型数据库管理系统,主要用于快速、可靠地存储和检索数据。其工作原理包括客户端请求、查询解析、执行查询和返回结果。使用示例包括创建表、插入和查询数据,以及高级功能如JOIN操作。常见错误涉及SQL语法、数据类型和权限问题,优化建议包括使用索引、优化查询和分表分区。

MySQL的位置:数据库和编程 MySQL的位置:数据库和编程 Apr 13, 2025 am 12:18 AM

MySQL在数据库和编程中的地位非常重要,它是一个开源的关系型数据库管理系统,广泛应用于各种应用场景。1)MySQL提供高效的数据存储、组织和检索功能,支持Web、移动和企业级系统。2)它使用客户端-服务器架构,支持多种存储引擎和索引优化。3)基本用法包括创建表和插入数据,高级用法涉及多表JOIN和复杂查询。4)常见问题如SQL语法错误和性能问题可以通过EXPLAIN命令和慢查询日志调试。5)性能优化方法包括合理使用索引、优化查询和使用缓存,最佳实践包括使用事务和PreparedStatemen

为什么要使用mysql?利益和优势 为什么要使用mysql?利益和优势 Apr 12, 2025 am 12:17 AM

选择MySQL的原因是其性能、可靠性、易用性和社区支持。1.MySQL提供高效的数据存储和检索功能,支持多种数据类型和高级查询操作。2.采用客户端-服务器架构和多种存储引擎,支持事务和查询优化。3.易于使用,支持多种操作系统和编程语言。4.拥有强大的社区支持,提供丰富的资源和解决方案。

MySQL与其他编程语言:一种比较 MySQL与其他编程语言:一种比较 Apr 19, 2025 am 12:22 AM

MySQL与其他编程语言相比,主要用于存储和管理数据,而其他语言如Python、Java、C 则用于逻辑处理和应用开发。 MySQL以其高性能、可扩展性和跨平台支持着称,适合数据管理需求,而其他语言在各自领域如数据分析、企业应用和系统编程中各有优势。

MySQL:从小型企业到大型企业 MySQL:从小型企业到大型企业 Apr 13, 2025 am 12:17 AM

MySQL适合小型和大型企业。1)小型企业可使用MySQL进行基本数据管理,如存储客户信息。2)大型企业可利用MySQL处理海量数据和复杂业务逻辑,优化查询性能和事务处理。

MySQL索引基数如何影响查询性能? MySQL索引基数如何影响查询性能? Apr 14, 2025 am 12:18 AM

MySQL索引基数对查询性能有显着影响:1.高基数索引能更有效地缩小数据范围,提高查询效率;2.低基数索引可能导致全表扫描,降低查询性能;3.在联合索引中,应将高基数列放在前面以优化查询。

See all articles