使用複制命令將數據導入紅移
使用Redshift的複制命令進行有效的數據導入
本指南使用高效的COPY
命令演示了將大型數據集導入到亞馬遜紅移中。我們將以公開可用的“情感分析Twitter數據”數據集(Sentiment140)為例。 注意:TeamSQL是一種多平台數據庫客戶端,與RedShift,PostgreSQL,MySQL和Microsoft SQL Server兼容(可用於Mac,Linux和Windows),可以簡化連接過程。 您可以免費下載TeamSQL。在此處下載培訓數據zip文件。
- 複製與插入:
- 由於其並行處理功能,大型數據導入的命令的命令明顯更快。
COPY
>數據源:您的數據必須在S3中。建議使用CSV格式。 壓縮(例如,GZIP)減少了傳輸時間。 >
- 錯誤處理:利用 的系統表來診斷導入問題。儘管遇到有限的錯誤,但
- 選項允許命令繼續進行。 >
stl_load_errors
MAXERROR
COPY
設置紅移環境:
在此示例中,我們將假設具有這些規格的紅移群集:
節點類型:dc1.large
- 區域:us-east-1a
- >創建一個數據庫:
-
創建一個架構:
CREATE DATABASE sentiment;
- 了解數據結構: >
CREATE SCHEMA tweets;
polarity
(int):0(否定),2(中性),4(正) >
- >
id
(bigint):tweet ID - >
date_of_tweet
(varchar):tweet Date query
(varchar):query(或“ no_query”) >
- >
user_id
(varchar):用戶ID - >
tweet
(varchar):tweet text
- 創建一個表:
CREATE DATABASE sentiment;
- 上傳到S3:
- >解壓縮下載的文件。
- compress
- 使用gzip(例如,
training.1600000.processed.noemoticon.csv
)。gzip training.1600000.processed.noemoticon.csv
> >將壓縮文件( - )上傳到您的S3存儲桶中。 或者,使用AWS CLI上傳。
training.1600000.processed.noemoticon.csv.gz
- >與TeamsQl:
連接
- 創建一個紅移連接,指定群集詳細信息和 >數據庫。
-
sentiment
測試連接。
- (可選)在TeamSQL中重新創建架構和表格:
- 如果您更喜歡在TeamSQL中管理架構和表創建,請在TeamsSQL接口中重複步驟2和4。
>用複制命令導入數據:
>
在TeamSQL中執行此命令,用您的實際值代替佔位符:
CREATE SCHEMA tweets;
>命令參數:
:指定CSV文件格式。
>- :指示gzip壓縮。
CSV
- :處理無效的UTF-8字符。 有關此選項的詳細信息,請參見Redshift文檔,例如
GZIP
>。 ACCEPTINVCHARS
驗證導入:DELIMITER
>故障排除:
CREATE TABLE tweets.training ( polarity INT, id BIGINT, date_of_tweet VARCHAR, query VARCHAR, user_id VARCHAR, tweet VARCHAR(MAX) );
對於任何導入錯誤: 本綜合指南提供了使用 以上是使用複制命令將數據導入紅移的詳細內容。更多資訊請關注PHP中文網其他相關文章!CREATE DATABASE sentiment;
COPY
>命令將大型數據集導入紅移的詳細演練。請記住,請諮詢官方的紅移文檔以獲取最新信息和高級選項。

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

該試點程序是CNCF(雲本機計算基礎),安培計算,Equinix金屬和驅動的合作,簡化了CNCF GitHub項目的ARM64 CI/CD。 該計劃解決了安全問題和績效

該教程通過使用AWS服務來指導您通過構建無服務器圖像處理管道。 我們將創建一個部署在ECS Fargate群集上的next.js前端,與API網關,Lambda函數,S3桶和DynamoDB進行交互。 Th

與這些頂級開發人員新聞通訊有關最新技術趨勢的了解! 這個精選的清單為每個人提供了一些東西,從AI愛好者到經驗豐富的後端和前端開發人員。 選擇您的收藏夾並節省時間搜索REL

Arm64 架構開源軟件的 CI/CD 難題與解決方案 在 Arm64 架構上部署開源軟件需要一個強大的 CI/CD 環境。然而,Arm64 和傳統 x86 處理器架構的支持水平之間存在差異,Arm64 通常處於劣勢。面向多種架構的基礎設施組件開發人員對工作環境有一定的期望: 一致性:跨平台使用的工具和方法保持一致,避免因採用不太流行的平台而需要改變開發流程。 性能:平台和支持機制具有良好的性能,確保在支持多個平台時部署方案不會因速度不足而受影響。 測試覆蓋率:對所有平台同時進行效率、合規性和

定制电信软件开发无疑是一项相当大的投资。然而,从长远来看,您可能会意识到,这样的项目可能更具成本效益,因为它可以像市场上任何现成的解决方案一样提高您的生产力。了解构建定制电信系统的最重要优势。 获取您所需的确切功能 您可以购买的现成电信软件有两个潜在问题。有些缺乏可能显著改善您工作效率的有用功能。有时您可以通过一些外部集成来增强它们,但这并不总是足以使它们变得出色。 其他软件功能过多,使用起来过于复杂。您可能不会使用其中的一些(永远不会!)。大量的功能通常还会增加价格。 基于您的需求
