コピーコマンドを使用してデータをRedshiftにインポートします
効率的なデータインポートのためにRedshiftのコピーコマンドを使用して
このガイドは、非常に効率的なコマンドを使用して、大規模なデータセットをAmazon Redshiftにインポートすることを示しています。例として、公開されている「Twitter Data for Sentiment Analysis」データセット(Sentiment140)を使用します。 注:Redshift、PostgreSQL、MySQL、Microsoft SQL Server(Mac、Linux、およびWindowsで利用可能)と互換性のあるマルチプラットフォームデータベースクライアントであるTeamSQLは、接続プロセスを促進できます。 TeamSQLを無料でダウンロードできます。トレーニングデータzipファイルをダウンロードしてください
copy vs. insert:
- コマンドは、並列処理機能により、大規模なデータインポートの場合は大幅に高速です。
-
データソース:データはS3にある必要があります。 CSV形式をお勧めします。 圧縮(GZIPなど)は転送時間を短縮します
COPY
エラー処理: - システムテーブルを使用して、インポートの問題を診断します。 オプションは、限られた数のエラーに遭遇したにもかかわらず、 コマンドを続行できるようにします。
-
redshift環境のセットアップ:
stl_load_errors
MAXERROR
COPY
この例では、これらの仕様を備えた赤方偏移クラスターを想定しています。
ノードタイプ:dc1.large
ゾーン:us-east-1a
- データベースを作成します:
- スキーマを作成します:
CREATE DATABASE sentiment;
- データ構造を理解してください:
CREATE SCHEMA tweets;
polarity
(int):0(否定)、2(中立)、4(陽性)id
(bigint):ツイートIDdate_of_tweet
(varchar):ツイート日付query
(varchar):query(or "no_query")user_id
(varchar):user idtweet
(varchar):Tweet Text
- テーブルを作成:
CREATE DATABASE sentiment;
- s3: にアップロードします
-
ダウンロードされたファイルを解凍します
- gzip(例えば、 )を使用して
- compress
training.1600000.processed.noemoticon.csv
gzip training.1600000.processed.noemoticon.csv
圧縮されたファイル( )をS3バケツにアップロードします。 または、アップロードにAWS CLIを使用してください。 -
training.1600000.processed.noemoticon.csv.gz
- TeamSQLに接続:
- レッドシフト接続を作成し、クラスターの詳細と データベースを指定します。
- 接続をテストします。
sentiment
- TeamSQL内のスキーマとテーブルの作成を管理する場合は、TeamQLインターフェイス内でステップ2と4を繰り返します。
コピーコマンドでデータのインポート:
このコマンドをTeamSQLで実行し、プレースホルダーを実際の値に置き換えます。
CREATE SCHEMA tweets;
:CSVファイル形式を指定します
:gzip圧縮を示します。CSV
:無効なUTF-8文字を処理します。 この詳細については、 。
-
GZIP
インポートを確認してください: ACCEPTINVCHARS
DELIMITER
トラブルシューティング:
CREATE TABLE tweets.training ( polarity INT, id BIGINT, date_of_tweet VARCHAR, query VARCHAR, user_id VARCHAR, tweet VARCHAR(MAX) );
インポートエラーの場合はを確認してください:
CREATE DATABASE sentiment;
この包括的なガイドは、COPY
コマンドを使用して大規模なデータセットをRedshiftにインポートする詳細なウォークスルーを提供します。最新の情報と高度なオプションについては、公式のRedshiftドキュメントを参照してください。
以上がコピーコマンドを使用してデータをRedshiftにインポートしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











このパイロットプログラム、CNCF(クラウドネイティブコンピューティングファンデーション)、アンペアコンピューティング、Equinix Metal、およびActuatedのコラボレーションであるCNCF GithubプロジェクトのARM64 CI/CDが合理化されます。 このイニシアチブは、セキュリティの懸念とパフォーマンスリムに対処します

このチュートリアルは、AWSサービスを使用してサーバーレスイメージ処理パイプラインを構築することをガイドします。 APIゲートウェイ、Lambda関数、S3バケット、およびDynamoDBと対話するECS Fargateクラスターに展開されたnext.jsフロントエンドを作成します。 th

これらのトップ開発者ニュースレターを使用して、最新のハイテクトレンドについてお知らせください! このキュレーションされたリストは、AI愛好家からベテランのバックエンドやフロントエンド開発者まで、すべての人に何かを提供します。 お気に入りを選択し、Relを検索する時間を節約してください

ARM64アーキテクチャのオープンソースソフトウェアのCI/CDパズルとソリューション ARM64アーキテクチャにオープンソースソフトウェアを展開するには、強力なCI/CD環境が必要です。ただし、ARM64のサポートレベルと従来のX86プロセッサアーキテクチャには違いがありますが、これはしばしば不利な点にあります。複数のアーキテクチャのインフラストラクチャコンポーネント開発者は、職場環境に一定の期待を持っています。 一貫性:プラットフォーム間で使用されるツールとメソッドは一貫しており、人気の少ないプラットフォームの採用により開発プロセスを変更する必要性を回避します。 パフォーマンス:プラットフォームとサポートメカニズムは、複数のプラットフォームをサポートする際に展開シナリオが不十分な速度によって影響を受けることを保証するための優れたパフォーマンスを備えています。 テストカバレッジ:効率、コンプライアンス、および

カスタマイズされた通信ソフトウェア開発は、間違いなくかなりの投資です。ただし、長期的には、このようなプロジェクトは、市場で既製のソリューションのように生産性を向上させる可能性があるため、より費用対効果が高い可能性があることに気付くかもしれません。カスタマイズされた通信システムを構築することの最も重要な利点を理解してください。 必要な正確な機能を取得します あなたが購入できる既製の通信ソフトウェアには2つの潜在的な問題があります。生産性を大幅に向上させることができる有用な機能が欠けているものもあります。いくつかの外部統合でそれらを強化することができることもありますが、それは常にそれらを素晴らしいものにするのに十分ではありません。 他のソフトウェアには機能が多すぎて、使用できないほど複雑すぎます。おそらくこれらのいくつかを使用しないでしょう(決して!)。通常、多くの機能が価格に追加されます。 あなたのニーズに基づいています
