Teknik Penjana Python yang hebat untuk Pemprosesan Data Besar yang Cekap-Tutorial Python-php.cn

Rumah

pembangunan bahagian belakang

Tutorial Python

Teknik Penjana Python yang hebat untuk Pemprosesan Data Besar yang Cekap

DDD

Dec 29, 2024 pm 12:14 PM

owerful Python Generator Techniques for Efficient Big Data Processing

Sebagai pengarang terlaris, saya menjemput anda untuk menerokai buku saya di Amazon. Jangan lupa ikuti saya di Medium dan tunjukkan sokongan anda. terima kasih! Sokongan anda bermakna dunia!

Sebagai pembangun Python yang mempunyai pengalaman luas dalam pemprosesan data besar, saya mendapati penjana adalah alat yang sangat diperlukan untuk mengendalikan set data besar dengan cekap. Dalam artikel ini, saya akan berkongsi lima teknik penjana berkuasa yang telah meningkatkan aliran kerja pemprosesan data saya dengan ketara.

Ekspresi penjana ialah asas pemprosesan data yang cekap memori dalam Python. Tidak seperti pemahaman senarai, yang mencipta keseluruhan senarai dalam ingatan, ungkapan penjana menghasilkan nilai atas permintaan. Pendekatan ini amat berfaedah apabila bekerja dengan set data yang besar.

Pertimbangkan contoh ini di mana kita perlu memproses fail CSV yang besar:

def csv_reader(file_path):
    with open(file_path, 'r') as file:
        for line in file:
            yield line.strip().split(',')

def process_large_csv(file_path):
    data_gen = csv_reader(file_path)
    processed_gen = (process_row(row) for row in data_gen)
    for processed_row in processed_gen:
        # Further processing or storage
        pass

Salin selepas log masuk

Dalam kod ini, kami menggunakan fungsi penjana csv_reader untuk menghasilkan baris daripada fail CSV satu demi satu. Kami kemudian menggunakan ungkapan penjana untuk memproses setiap baris. Pendekatan ini membolehkan kami mengendalikan fail dalam sebarang saiz tanpa memuatkan keseluruhan set data ke dalam memori.

Hasil daripada penyata ialah alat yang berkuasa untuk meratakan penjana bersarang. Ia memudahkan kod dan meningkatkan prestasi apabila bekerja dengan struktur data yang kompleks.

Berikut ialah contoh penggunaan hasil daripada untuk memproses data JSON bersarang:

import json

def flatten_json(data):
    if isinstance(data, dict):
        for key, value in data.items():
            yield from flatten_json(value)
    elif isinstance(data, list):
        for item in data:
            yield from flatten_json(item)
    else:
        yield data

def process_large_json(file_path):
    with open(file_path, 'r') as file:
        data = json.load(file)
        for item in flatten_json(data):
            # Process each flattened item
            pass

Salin selepas log masuk

Kod ini meratakan struktur JSON bersarang dengan cekap, membolehkan kami memproses data yang kompleks tanpa membuat senarai perantaraan.

Penjana tak terhingga amat berguna untuk mencipta aliran data atau mensimulasikan proses berterusan. Ia boleh digunakan dalam senario di mana kita perlu menjana data selama-lamanya atau sehingga syarat tertentu dipenuhi.

Berikut ialah contoh penjana tak terhingga yang mensimulasikan data penderia:

import random
import time

def sensor_data_generator():
    while True:
        yield {
            'timestamp': time.time(),
            'temperature': random.uniform(20, 30),
            'humidity': random.uniform(40, 60)
        }

def process_sensor_data(duration):
    start_time = time.time()
    for data in sensor_data_generator():
        print(f"Temperature: {data['temperature']:.2f}°C, Humidity: {data['humidity']:.2f}%")
        if time.time() - start_time > duration:
            break
        time.sleep(1)

process_sensor_data(10)  # Process data for 10 seconds

Salin selepas log masuk

Penjana tak terhingga ini secara berterusan menghasilkan data sensor simulasi. Fungsi process_sensor_data menggunakan penjana ini untuk memproses data untuk tempoh tertentu.

Saluran paip penjana ialah cara yang elegan untuk membina rantaian transformasi data yang kompleks. Setiap langkah dalam perancangan boleh menjadi penjana, membolehkan pemprosesan set data besar yang cekap.

Berikut ialah contoh saluran paip penjana untuk memproses fail log:

import re

def read_logs(file_path):
    with open(file_path, 'r') as file:
        for line in file:
            yield line.strip()

def parse_logs(lines):
    pattern = r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) \[(\w+)\] (.+)'
    for line in lines:
        match = re.match(pattern, line)
        if match:
            yield {
                'timestamp': match.group(1),
                'level': match.group(2),
                'message': match.group(3)
            }

def filter_errors(logs):
    for log in logs:
        if log['level'] == 'ERROR':
            yield log

def process_log_file(file_path):
    logs = read_logs(file_path)
    parsed_logs = parse_logs(logs)
    error_logs = filter_errors(parsed_logs)
    for error in error_logs:
        print(f"Error at {error['timestamp']}: {error['message']}")

process_log_file('application.log')

Salin selepas log masuk

Saluran paip ini membaca fail log, menghuraikan setiap baris, menapis untuk mesej ralat dan memprosesnya. Setiap langkah adalah penjana, membolehkan pemprosesan fail log besar yang cekap.

Modul itertools dalam Python menyediakan satu set alatan yang cepat dan cekap memori untuk bekerja dengan iterator. Fungsi ini amat berguna apabila memproses output penjana.

Berikut ialah contoh menggunakan itertools.islice dan itertools.groupby untuk memproses set data yang besar:

def csv_reader(file_path):
    with open(file_path, 'r') as file:
        for line in file:
            yield line.strip().split(',')

def process_large_csv(file_path):
    data_gen = csv_reader(file_path)
    processed_gen = (process_row(row) for row in data_gen)
    for processed_row in processed_gen:
        # Further processing or storage
        pass

Salin selepas log masuk

Dalam contoh ini, kami menggunakan islice untuk mengehadkan bilangan item yang diproses dan berkumpulan untuk mengumpulkan data mengikut kategori. Pendekatan ini membolehkan kami memproses dan menganalisis subset set data yang besar dengan cekap.

Apabila bekerja dengan penjana, pengendalian ralat yang betul adalah penting. Memandangkan penjana boleh kehabisan tenaga, kami perlu mengendalikan kemungkinan pengecualian StopIteration dan ralat lain yang mungkin berlaku semasa pemprosesan.

Berikut ialah contoh pengendalian ralat yang mantap dalam saluran paip pemprosesan data berasaskan penjana:

import json

def flatten_json(data):
    if isinstance(data, dict):
        for key, value in data.items():
            yield from flatten_json(value)
    elif isinstance(data, list):
        for item in data:
            yield from flatten_json(item)
    else:
        yield data

def process_large_json(file_path):
    with open(file_path, 'r') as file:
        data = json.load(file)
        for item in flatten_json(data):
            # Process each flattened item
            pass

Salin selepas log masuk

Kod ini menunjukkan cara mengendalikan ralat pada peringkat item dan peringkat penjana, memastikan pemprosesan set data besar yang mantap.

Untuk mengoptimumkan prestasi apabila bekerja dengan penjana, pertimbangkan petua berikut:

Gunakan ungkapan penjana dan bukannya pemahaman senarai apabila boleh.
Laksanakan caching untuk pengiraan mahal dalam penjana.
Gunakan modul itertools untuk operasi iterator yang cekap.
Pertimbangkan pemprosesan selari untuk tugas terikat CPU menggunakan berbilang pemprosesan.

Berikut ialah contoh melaksanakan caching dalam penjana:

import random
import time

def sensor_data_generator():
    while True:
        yield {
            'timestamp': time.time(),
            'temperature': random.uniform(20, 30),
            'humidity': random.uniform(40, 60)
        }

def process_sensor_data(duration):
    start_time = time.time()
    for data in sensor_data_generator():
        print(f"Temperature: {data['temperature']:.2f}°C, Humidity: {data['humidity']:.2f}%")
        if time.time() - start_time > duration:
            break
        time.sleep(1)

process_sensor_data(10)  # Process data for 10 seconds

Salin selepas log masuk

Kod ini menggunakan penghias lru_cache untuk cache hasil pengiraan yang mahal, meningkatkan prestasi dengan ketara untuk nilai berulang.

Penjana amat berguna untuk memproses fail log yang besar. Berikut ialah contoh yang lebih maju yang menunjukkan pemprosesan log akses Apache:

import re

def read_logs(file_path):
    with open(file_path, 'r') as file:
        for line in file:
            yield line.strip()

def parse_logs(lines):
    pattern = r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) \[(\w+)\] (.+)'
    for line in lines:
        match = re.match(pattern, line)
        if match:
            yield {
                'timestamp': match.group(1),
                'level': match.group(2),
                'message': match.group(3)
            }

def filter_errors(logs):
    for log in logs:
        if log['level'] == 'ERROR':
            yield log

def process_log_file(file_path):
    logs = read_logs(file_path)
    parsed_logs = parse_logs(logs)
    error_logs = filter_errors(parsed_logs)
    for error in error_logs:
        print(f"Error at {error['timestamp']}: {error['message']}")

process_log_file('application.log')

Salin selepas log masuk

Kod ini memproses fail log akses Apache yang besar dengan cekap, memberikan cerapan tentang kekerapan alamat IP, pengedaran kod status dan jumlah data yang dipindahkan.

Apabila bekerja dengan dokumen XML yang besar, penjana boleh sangat membantu. Berikut ialah contoh menggunakan modul xml.etree.ElementTree untuk memproses fail XML yang besar:

import itertools

def large_dataset():
    for i in range(1000000):
        yield {'id': i, 'category': chr(65 + i % 26), 'value': i * 2}

def process_data():
    data = large_dataset()

    # Process only the first 100 items
    first_100 = itertools.islice(data, 100)

    # Group the first 100 items by category
    grouped = itertools.groupby(first_100, key=lambda x: x['category'])

    for category, items in grouped:
        print(f"Category {category}:")
        for item in items:
            print(f"  ID: {item['id']}, Value: {item['value']}")

process_data()

Salin selepas log masuk

Kod ini menggunakan iterparse untuk memproses fail XML yang besar dengan cekap tanpa memuatkan keseluruhan dokumen ke dalam memori. Ia menghasilkan elemen dengan nama teg tertentu, membolehkan pemprosesan disasarkan bagi struktur XML yang besar.

Penjana juga sangat baik untuk melaksanakan saluran paip data dalam proses ETL (Extract, Transform, Load). Berikut ialah contoh saluran paip ETL mudah menggunakan penjana:

def safe_process(generator):
    try:
        for item in generator:
            try:
                yield process_item(item)
            except ValueError as e:
                print(f"Error processing item: {e}")
    except StopIteration:
        print("Generator exhausted")
    except Exception as e:
        print(f"Unexpected error: {e}")

def process_item(item):
    # Simulate processing that might raise an error
    if item % 10 == 0:
        raise ValueError("Invalid item")
    return item * 2

def item_generator():
    for i in range(100):
        yield i

for result in safe_process(item_generator()):
    print(result)

Salin selepas log masuk

Saluran paip ETL ini membaca data daripada fail CSV, mengubahnya dengan menggunakan beberapa logik perniagaan, dan kemudian memuatkannya ke dalam fail JSON. Penggunaan penjana membolehkan pemprosesan set data yang besar dengan cekap dengan penggunaan memori yang minimum.

Kesimpulannya, penjana Python ialah alat yang berkuasa untuk pemprosesan data besar yang cekap. Mereka membenarkan kami bekerja dengan set data yang besar tanpa memuatkan semuanya ke dalam memori sekaligus. Dengan menggunakan teknik seperti ungkapan penjana, hasil daripada, penjana tak terhingga, saluran paip penjana dan modul itertools, kami boleh mencipta aliran kerja pemprosesan data yang cekap memori dan berprestasi.

Sepanjang kerjaya saya, saya mendapati teknik penjana ini tidak ternilai apabila berurusan dengan fail log besar, dokumen XML/JSON yang kompleks dan proses ETL berskala besar. Mereka telah membenarkan saya memproses data yang mungkin mustahil untuk dikendalikan dengan kaedah tradisional.

Sambil anda bekerja dengan data besar dalam Python, saya menggalakkan anda untuk meneroka teknik penjana ini dan memasukkannya ke dalam projek anda. Ia bukan sahaja akan meningkatkan kecekapan kod anda tetapi juga membolehkan anda menangani tugas pemprosesan data yang lebih besar dan lebih kompleks dengan mudah.

101 Buku

101 Buku ialah syarikat penerbitan dipacu AI yang diasaskan bersama oleh pengarang Aarav Joshi. Dengan memanfaatkan teknologi AI termaju, kami memastikan kos penerbitan kami sangat rendah—sesetengah buku berharga serendah $4—menjadikan pengetahuan berkualiti boleh diakses oleh semua orang.

Lihat buku kami Kod Bersih Golang tersedia di Amazon.

Nantikan kemas kini dan berita menarik. Apabila membeli-belah untuk buku, cari Aarav Joshi untuk mencari lebih banyak tajuk kami. Gunakan pautan yang disediakan untuk menikmati diskaun istimewa!

Ciptaan Kami

Pastikan anda melihat ciptaan kami:

Kami berada di Medium

Atas ialah kandungan terperinci Teknik Penjana Python yang hebat untuk Pemprosesan Data Besar yang Cekap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

3 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

3 minggu yang lalu By DDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Nordhold: Sistem Fusion, dijelaskan

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Java

1667

Tutorial CakePHP

1426

Tutorial Laravel

1328

Tutorial PHP

1273

Tutorial C#

1255

Tunjukkan Lagi

Related knowledge

Python: Permainan, GUI, dan banyak lagi Apr 13, 2025 am 12:14 AM

Python cemerlang dalam permainan dan pembangunan GUI. 1) Pembangunan permainan menggunakan pygame, menyediakan lukisan, audio dan fungsi lain, yang sesuai untuk membuat permainan 2D. 2) Pembangunan GUI boleh memilih tkinter atau pyqt. TKInter adalah mudah dan mudah digunakan, PYQT mempunyai fungsi yang kaya dan sesuai untuk pembangunan profesional.

Python vs C: Lengkung pembelajaran dan kemudahan penggunaan Apr 19, 2025 am 12:20 AM

Python lebih mudah dipelajari dan digunakan, manakala C lebih kuat tetapi kompleks. 1. Sintaks Python adalah ringkas dan sesuai untuk pemula. Penaipan dinamik dan pengurusan memori automatik menjadikannya mudah digunakan, tetapi boleh menyebabkan kesilapan runtime. 2.C menyediakan kawalan peringkat rendah dan ciri-ciri canggih, sesuai untuk aplikasi berprestasi tinggi, tetapi mempunyai ambang pembelajaran yang tinggi dan memerlukan memori manual dan pengurusan keselamatan jenis.

Python dan Masa: Memanfaatkan masa belajar anda Apr 14, 2025 am 12:02 AM

Untuk memaksimumkan kecekapan pembelajaran Python dalam masa yang terhad, anda boleh menggunakan modul, masa, dan modul Python. 1. Modul DateTime digunakan untuk merakam dan merancang masa pembelajaran. 2. Modul Masa membantu menetapkan kajian dan masa rehat. 3. Modul Jadual secara automatik mengatur tugas pembelajaran mingguan.

Python vs C: Meneroka Prestasi dan Kecekapan Apr 18, 2025 am 12:20 AM

Python lebih baik daripada C dalam kecekapan pembangunan, tetapi C lebih tinggi dalam prestasi pelaksanaan. 1. Sintaks ringkas Python dan perpustakaan yang kaya meningkatkan kecekapan pembangunan. 2. Ciri-ciri jenis kompilasi dan kawalan perkakasan meningkatkan prestasi pelaksanaan. Apabila membuat pilihan, anda perlu menimbang kelajuan pembangunan dan kecekapan pelaksanaan berdasarkan keperluan projek.

Yang merupakan sebahagian daripada Perpustakaan Standard Python: Senarai atau Array? Apr 27, 2025 am 12:03 AM

Pythonlistsarepartofthestandardlibrary, sementara

Python: Automasi, skrip, dan pengurusan tugas Apr 16, 2025 am 12:14 AM

Python cemerlang dalam automasi, skrip, dan pengurusan tugas. 1) Automasi: Sandaran fail direalisasikan melalui perpustakaan standard seperti OS dan Shutil. 2) Penulisan Skrip: Gunakan Perpustakaan Psutil untuk memantau sumber sistem. 3) Pengurusan Tugas: Gunakan perpustakaan jadual untuk menjadualkan tugas. Kemudahan penggunaan Python dan sokongan perpustakaan yang kaya menjadikannya alat pilihan di kawasan ini.

Pembelajaran Python: Adakah 2 jam kajian harian mencukupi? Apr 18, 2025 am 12:22 AM

Adakah cukup untuk belajar Python selama dua jam sehari? Ia bergantung pada matlamat dan kaedah pembelajaran anda. 1) Membangunkan pelan pembelajaran yang jelas, 2) Pilih sumber dan kaedah pembelajaran yang sesuai, 3) mengamalkan dan mengkaji semula dan menyatukan amalan tangan dan mengkaji semula dan menyatukan, dan anda secara beransur-ansur boleh menguasai pengetahuan asas dan fungsi lanjutan Python dalam tempoh ini.

Python vs C: Memahami perbezaan utama Apr 21, 2025 am 12:18 AM

Python dan C masing -masing mempunyai kelebihan sendiri, dan pilihannya harus berdasarkan keperluan projek. 1) Python sesuai untuk pembangunan pesat dan pemprosesan data kerana sintaks ringkas dan menaip dinamik. 2) C sesuai untuk prestasi tinggi dan pengaturcaraan sistem kerana menaip statik dan pengurusan memori manual.

See all articles