如何從大型 PostgreSQL 表中有效地選擇隨機行？-mysql教程-PHP中文網

方法一：以隨機值過濾

方法二：依隨機值排序並限制結果

大型資料集的最佳化方案

其他考慮因素

首頁

資料庫

mysql教程

如何從大型 PostgreSQL 表中有效地選擇隨機行？

Barbara Streisand

Jan 21, 2025 am 05:37 AM

How Can I Efficiently Select Random Rows from a Large PostgreSQL Table?

從PostgreSQL等大型資料庫中隨機選擇行，可能是效能密集型任務。本文探討兩種高效實現此目標的常用方法，並討論其優缺點。

方法一：以隨機值過濾

select * from table where random() < 0.01;

登入後複製

此方法隨機對行進行排序，然後根據閾值進行過濾。但是，它需要進行全表掃描，對於大型資料集來說可能很慢。

方法二：依隨機值排序並限制結果

select * from table order by random() limit 1000;

登入後複製

此方法隨機對行進行排序，並選擇前n行。它的性能優於第一種方法，但它有一個限制：當行組中存在過多行時，它可能無法選擇隨機子集。

大型資料集的最佳化方案

對於具有大量行的表（例如您範例中的5億行），以下方法提供了一個最佳化的解決方案：

WITH params AS (
   SELECT 1       AS min_id,           -- 最小ID（小于等于当前最小ID）
        5100000 AS id_span          -- 四舍五入。(max_id - min_id + buffer)
    )
SELECT *
FROM  (
   SELECT p.min_id + trunc(random() * p.id_span)::integer AS id
   FROM   params p
        , generate_series(1, 1100) g  -- 1000 + buffer
   GROUP  BY 1                        -- 去除重复项
) r
JOIN   big USING (id)
LIMIT  1000;                          -- 去除多余项

登入後複製

此查詢利用ID列上的索引進行高效率檢索。它在ID空間內產生一系列隨機數，確保ID唯一，並將資料與主表連接以選擇所需數量的行。

其他考慮因素

邊界查詢：
表ID列的空隙相對較少至關重要，以避免在隨機數產生中需要大型緩衝區。

物化視圖：
如果需要重複調用隨機數據，考慮創建物化視圖可以提高效能。

PostgreSQL 9.5 的 TABLESAMPLE SYSTEM：
PostgreSQL 9.5 中引入的這種最佳化技術允許快速取樣指定百分比的行。

以上是如何從大型 PostgreSQL 表中有效地選擇隨機行？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1670

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1273

C# 教程

1256

Related knowledge

MySQL的角色：Web應用程序中的數據庫 Apr 17, 2025 am 12:23 AM

MySQL在Web應用中的主要作用是存儲和管理數據。 1.MySQL高效處理用戶信息、產品目錄和交易記錄等數據。 2.通過SQL查詢，開發者能從數據庫提取信息生成動態內容。 3.MySQL基於客戶端-服務器模型工作，確保查詢速度可接受。

說明InnoDB重做日誌和撤消日誌的作用。 Apr 15, 2025 am 12:16 AM

InnoDB使用redologs和undologs確保數據一致性和可靠性。 1.redologs記錄數據頁修改，確保崩潰恢復和事務持久性。 2.undologs記錄數據原始值，支持事務回滾和MVCC。

MySQL與其他編程語言：一種比較 Apr 19, 2025 am 12:22 AM

MySQL与其他编程语言相比，主要用于存储和管理数据，而其他语言如Python、Java、C 则用于逻辑处理和应用开发。MySQL以其高性能、可扩展性和跨平台支持著称，适合数据管理需求，而其他语言在各自领域如数据分析、企业应用和系统编程中各有优势。

MySQL索引基數如何影響查詢性能？ Apr 14, 2025 am 12:18 AM

MySQL索引基数对查询性能有显著影响：1.高基数索引能更有效地缩小数据范围，提高查询效率；2.低基数索引可能导致全表扫描，降低查询性能；3.在联合索引中，应将高基数列放在前面以优化查询。

初學者的MySQL：開始數據庫管理 Apr 18, 2025 am 12:10 AM

MySQL的基本操作包括創建數據庫、表格，及使用SQL進行數據的CRUD操作。 1.創建數據庫：CREATEDATABASEmy_first_db;2.創建表格：CREATETABLEbooks(idINTAUTO_INCREMENTPRIMARYKEY,titleVARCHAR(100)NOTNULL,authorVARCHAR(100)NOTNULL,published_yearINT);3.插入數據：INSERTINTObooks(title,author,published_year)VA

MySQL與其他數據庫：比較選項 Apr 15, 2025 am 12:08 AM

MySQL適合Web應用和內容管理系統，因其開源、高性能和易用性而受歡迎。 1)與PostgreSQL相比，MySQL在簡單查詢和高並發讀操作上表現更好。 2)相較Oracle，MySQL因開源和低成本更受中小企業青睞。 3)對比MicrosoftSQLServer，MySQL更適合跨平台應用。 4)與MongoDB不同，MySQL更適用於結構化數據和事務處理。

解釋InnoDB緩衝池及其對性能的重要性。 Apr 19, 2025 am 12:24 AM

InnoDBBufferPool通過緩存數據和索引頁來減少磁盤I/O，提升數據庫性能。其工作原理包括：1.數據讀取：從BufferPool中讀取數據；2.數據寫入：修改數據後寫入BufferPool並定期刷新到磁盤；3.緩存管理：使用LRU算法管理緩存頁；4.預讀機制：提前加載相鄰數據頁。通過調整BufferPool大小和使用多個實例，可以優化數據庫性能。

MySQL：結構化數據和關係數據庫 Apr 18, 2025 am 12:22 AM

MySQL通過表結構和SQL查詢高效管理結構化數據，並通過外鍵實現表間關係。 1.創建表時定義數據格式和類型。 2.使用外鍵建立表間關係。 3.通過索引和查詢優化提高性能。 4.定期備份和監控數據庫確保數據安全和性能優化。

See all articles

如何從大型 PostgreSQL 表中有效地選擇隨機行？

方法一：以隨機值過濾

方法二：依隨機值排序並限制結果

大型資料集的最佳化方案

其他考慮因素

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題