Rumah Peranti teknologi industri IT Import data ke redshift menggunakan arahan salinan

Import data ke redshift menggunakan arahan salinan

Feb 16, 2025 pm 12:55 PM

menggunakan arahan salinan redshift untuk import data yang cekap

Panduan ini menunjukkan mengimport dataset besar ke Amazon Redshift menggunakan arahan COPY yang sangat cekap. Kami akan menggunakan dataset "Data Twitter untuk Analisis Sentimen" yang tersedia secara terbuka (sentimen140) sebagai contoh. Nota: TeamSQL, pelanggan pangkalan data pelbagai platform yang serasi dengan RedShift, PostgreSQL, MySQL, dan Microsoft SQL Server (tersedia untuk Mac, Linux, dan Windows), boleh memudahkan proses sambungan. Anda boleh memuat turun TeamSQL secara percuma. Muat turun fail zip data latihan di sini .

Pertimbangan utama:

  • Salin vs. Masukkan: Perintah jauh lebih cepat untuk import data yang besar disebabkan oleh keupayaan pemprosesan selari. COPY
  • Sumber Data: Data anda mesti berada di S3. Format CSV disyorkan. Mampatan (mis., GZIP) mengurangkan masa pemindahan.
  • Pengendalian ralat:
  • Gunakan jadual sistem untuk mendiagnosis isu import. Pilihan membolehkan perintah stl_load_errors untuk meneruskan walaupun menghadapi beberapa kesilapan yang terhad. MAXERROR COPY
Menyediakan persekitaran redshift anda:

Untuk contoh ini, kami akan menganggap kluster redshift dengan spesifikasi ini:

Jenis kluster: nod tunggal
  • Jenis nod: dc1.large
  • Zon: US-East-1a
    Buat pangkalan data:
CREATE DATABASE sentiment;
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk
    Buat skema:
CREATE SCHEMA tweets;
Salin selepas log masuk
Salin selepas log masuk
    Memahami struktur data:
  1. fail CSV (latihan.1600000.processed.noemoticon) mengandungi:
  • (int): 0 (negatif), 2 (neutral), 4 (positif) polarity
  • (bigint): Tweet ID id
  • (varchar): Tarikh tweet date_of_tweet
  • (varchar): pertanyaan (atau "no_query")
  • query (varchar): id pengguna
  • user_id (varchar): Teks tweet
  • tweet
Buat Jadual:
  • muat naik ke S3:
    CREATE DATABASE sentiment;
    Salin selepas log masuk
    Salin selepas log masuk
    Salin selepas log masuk
      unzip fail yang dimuat turun.
    1. compress menggunakan gzip (mis.,
    2. ).
      Muat naik fail termampat (
    • ) ke baldi S3 anda. Sebagai alternatif, gunakan AWS CLI untuk memuat naik.
    • training.1600000.processed.noemoticon.csv gzip training.1600000.processed.noemoticon.csv
    • Sambung dengan TeamSQL:
    • training.1600000.processed.noemoticon.csv.gz
      Pasang dan konfigurasikan TeamSQL.
    1. Buat sambungan redshift, nyatakan butiran kluster anda dan pangkalan data .
    Uji sambungan.
    • sentiment (Pilihan) Cipta semula skema dan jadual dalam TeamSQL:
    • Jika anda lebih suka menguruskan skema dan penciptaan meja dalam TeamSQL, ulangi langkah 2 dan 4 dalam antara muka TeamSQL.

    mengimport data dengan arahan salinan: Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command Jalankan arahan ini dalam TeamSQL, menggantikan ruang letak dengan nilai sebenar anda: Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command

    Parameter perintah:

    CREATE SCHEMA tweets;
    Salin selepas log masuk
    Salin selepas log masuk

    : Menentukan format fail CSV. Import Data into Redshift Using the COPY Command

    : Menunjukkan mampatan gzip.

    : Mengendalikan aksara UTF-8 yang tidak sah. Lihat dokumentasi redshift untuk butiran mengenai pilihan ini dan lain -lain seperti
      .
    • CSV
    • Sahkan import: GZIP
    • ACCEPTINVCHARS DELIMITER
    Penyelesaian masalah:

    semak

    untuk sebarang kesilapan import:
    CREATE TABLE tweets.training (
        polarity INT,
        id BIGINT,
        date_of_tweet VARCHAR,
        query VARCHAR,
        user_id VARCHAR,
        tweet VARCHAR(MAX)
    );
    Salin selepas log masuk
    CREATE DATABASE sentiment;
    Salin selepas log masuk
    Salin selepas log masuk
    Salin selepas log masuk

    Panduan Komprehensif ini menyediakan langkah terperinci untuk mengimport dataset besar ke dalam redshift menggunakan arahan COPY. Ingatlah untuk berunding dengan dokumentasi Redshift rasmi untuk maklumat terkini dan pilihan lanjutan.

    Atas ialah kandungan terperinci Import data ke redshift menggunakan arahan salinan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

    Kenyataan Laman Web ini
    Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

    Alat AI Hot

    Undresser.AI Undress

    Undresser.AI Undress

    Apl berkuasa AI untuk mencipta foto bogel yang realistik

    AI Clothes Remover

    AI Clothes Remover

    Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

    Undress AI Tool

    Undress AI Tool

    Gambar buka pakaian secara percuma

    Clothoff.io

    Clothoff.io

    Penyingkiran pakaian AI

    Video Face Swap

    Video Face Swap

    Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

    Artikel Panas

    <🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja
    3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
    Nordhold: Sistem Fusion, dijelaskan
    3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
    Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
    3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

    Alat panas

    Notepad++7.3.1

    Notepad++7.3.1

    Editor kod yang mudah digunakan dan percuma

    SublimeText3 versi Cina

    SublimeText3 versi Cina

    Versi Cina, sangat mudah digunakan

    Hantar Studio 13.0.1

    Hantar Studio 13.0.1

    Persekitaran pembangunan bersepadu PHP yang berkuasa

    Dreamweaver CS6

    Dreamweaver CS6

    Alat pembangunan web visual

    SublimeText3 versi Mac

    SublimeText3 versi Mac

    Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

    Topik panas

    Tutorial Java
    1669
    14
    Tutorial PHP
    1273
    29
    Tutorial C#
    1256
    24
    CNCF Arm64 Pilot: Impak dan Wawasan CNCF Arm64 Pilot: Impak dan Wawasan Apr 15, 2025 am 08:27 AM

    Program perintis ini, kerjasama antara CNCF (Yayasan Pengkomputeran Native Cloud), pengkomputeran ampere, equinix metal, dan digerakkan, menyelaraskan ARM64 CI/CD untuk projek GitHub CNCF. Inisiatif ini menangani kebimbangan keselamatan dan prestasi lim

    Paip pemprosesan imej tanpa pelayan dengan AWS ECS dan Lambda Paip pemprosesan imej tanpa pelayan dengan AWS ECS dan Lambda Apr 18, 2025 am 08:28 AM

    Tutorial ini membimbing anda melalui membina saluran paip pemprosesan imej tanpa pelayan menggunakan perkhidmatan AWS. Kami akan membuat frontend next.js yang digunakan pada kluster ECS Fargate, berinteraksi dengan Gateway API, Fungsi Lambda, Bucket S3, dan DynamoDB. Th

    Surat berita pemaju 21 teratas untuk melanggan pada tahun 2025 Surat berita pemaju 21 teratas untuk melanggan pada tahun 2025 Apr 24, 2025 am 08:28 AM

    Tinggal maklumat mengenai trend teknologi terkini dengan surat berita pemaju teratas ini! Senarai ini menawarkan sesuatu untuk semua orang, dari peminat AI ke pemaju backend dan frontend yang berpengalaman. Pilih kegemaran anda dan menjimatkan masa mencari rel

    CNCF mencetuskan penemuan pariti platform untuk ARM64 dan x86 CNCF mencetuskan penemuan pariti platform untuk ARM64 dan x86 May 11, 2025 am 08:27 AM

    Teka -teki dan penyelesaian CI/CD untuk perisian sumber terbuka dalam seni bina ARM64 Menggunakan perisian sumber terbuka pada seni bina ARM64 memerlukan persekitaran CI/CD yang kuat. Walau bagaimanapun, terdapat perbezaan antara tahap sokongan ARM64 dan seni bina pemproses tradisional x86, yang sering merugikan. Pemaju komponen infrastruktur untuk pelbagai seni bina mempunyai jangkaan tertentu untuk persekitaran kerja mereka: Konsistensi: Alat dan kaedah yang digunakan di seluruh platform adalah konsisten, mengelakkan keperluan untuk mengubah proses pembangunan disebabkan penggunaan platform yang kurang popular. Prestasi: Platform dan mekanisme sokongan mempunyai prestasi yang baik untuk memastikan senario penempatan tidak terjejas oleh kelajuan yang tidak mencukupi apabila menyokong pelbagai platform. Liputan Ujian: Kecekapan, Pematuhan dan

    Faedah perisian telekomunikasi tersuai Faedah perisian telekomunikasi tersuai May 11, 2025 am 08:28 AM

    Pembangunan perisian telekom yang disesuaikan tidak dapat diragukan lagi merupakan pelaburan yang besar. Walau bagaimanapun, dalam jangka masa panjang, anda mungkin menyedari bahawa projek sedemikian mungkin lebih kos efektif kerana ia dapat meningkatkan produktiviti anda seperti penyelesaian siap sedia di pasaran. Memahami kelebihan yang paling penting untuk membina sistem telekomunikasi yang disesuaikan. Dapatkan ciri tepat yang anda perlukan Terdapat dua masalah yang berpotensi dengan perisian telekomunikasi di luar rak yang boleh anda beli. Sesetengah kekurangan ciri berguna yang dapat meningkatkan produktiviti anda dengan ketara. Kadang -kadang anda dapat meningkatkannya dengan beberapa integrasi luaran, tetapi itu tidak selalu cukup untuk menjadikannya hebat. Perisian lain mempunyai terlalu banyak fungsi dan terlalu rumit untuk digunakan. Anda mungkin tidak akan menggunakan beberapa perkara ini (tidak pernah!). Sebilangan besar ciri biasanya menambah harga. Berdasarkan keperluan anda

    See all articles