使用复制命令将数据导入红移
使用Redshift的复制命令进行有效的数据导入
本指南使用高效的COPY
命令演示了将大型数据集导入到亚马逊红移中。我们将以公开可用的“情感分析Twitter数据”数据集(Sentiment140)为例。 注意:TeamSQL是一种多平台数据库客户端,与RedShift,PostgreSQL,MySQL和Microsoft SQL Server兼容(可用于Mac,Linux和Windows),可以简化连接过程。 您可以免费下载TeamSQL。在此处下载培训数据zip文件。
- 复制与插入:
- 由于其并行处理功能,大型数据导入的命令的命令明显更快。
COPY
>数据源:您的数据必须在S3中。建议使用CSV格式。 压缩(例如,GZIP)减少了传输时间。 >
- 错误处理:利用 的系统表来诊断导入问题。尽管遇到有限的错误,但
- 选项允许命令继续进行。>
stl_load_errors
MAXERROR
COPY
设置红移环境:
在此示例中,我们将假设具有这些规格的红移群集:
节点类型:dc1.large
- 区域:us-east-1a
- >创建一个数据库:
-
创建一个架构:
CREATE DATABASE sentiment;
- 了解数据结构: >
CREATE SCHEMA tweets;
polarity
(int):0(否定),2(中性),4(正) >
- >
id
(bigint):tweet ID - >
date_of_tweet
(varchar):tweet Date query
(varchar):query(或“ no_query”) >
- >
user_id
(varchar):用户ID - >
tweet
(varchar):tweet text
- 创建一个表:
CREATE DATABASE sentiment;
- 上传到S3:
- >解压缩下载的文件。
- compress
- 使用gzip(例如,
training.1600000.processed.noemoticon.csv
)。gzip training.1600000.processed.noemoticon.csv
> >将压缩文件( - )上传到您的S3存储桶中。 或者,使用AWS CLI上传。
training.1600000.processed.noemoticon.csv.gz
- >与TeamsQl:
连接
- 创建一个红移连接,指定群集详细信息和 >数据库。
-
sentiment
测试连接。
- (可选)在TeamSQL中重新创建架构和表格:
- 如果您更喜欢在TeamSQL中管理架构和表创建,请在TeamsSQL接口中重复步骤2和4。
>用复制命令导入数据:
>
在TeamSQL中执行此命令,用您的实际值代替占位符:
CREATE SCHEMA tweets;
>命令参数:
:指定CSV文件格式。
>- :指示gzip压缩。
CSV
- :处理无效的UTF-8字符。 有关此选项的详细信息,请参见Redshift文档,例如
GZIP
>。 ACCEPTINVCHARS
验证导入:DELIMITER
>故障排除:
CREATE TABLE tweets.training ( polarity INT, id BIGINT, date_of_tweet VARCHAR, query VARCHAR, user_id VARCHAR, tweet VARCHAR(MAX) );
对于任何导入错误: 本综合指南提供了使用 以上是使用复制命令将数据导入红移的详细内容。更多信息请关注PHP中文网其他相关文章!CREATE DATABASE sentiment;
COPY
>命令将大型数据集导入红移的详细演练。请记住,请咨询官方的红移文档以获取最新信息和高级选项。

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

该试点程序是CNCF(云本机计算基础),安培计算,Equinix金属和驱动的合作,简化了CNCF GitHub项目的ARM64 CI/CD。 该计划解决了安全问题和绩效

该教程通过使用AWS服务来指导您通过构建无服务器图像处理管道。 我们将创建一个部署在ECS Fargate群集上的next.js前端,与API网关,Lambda函数,S3桶和DynamoDB进行交互。 Th

与这些顶级开发人员新闻通讯有关最新技术趋势的了解! 这个精选的清单为每个人提供了一些东西,从AI爱好者到经验丰富的后端和前端开发人员。 选择您的收藏夹并节省时间搜索REL

定制电信软件开发无疑是一项相当大的投资。然而,从长远来看,您可能会意识到,这样的项目可能更具成本效益,因为它可以像市场上任何现成的解决方案一样提高您的生产力。了解构建定制电信系统的最重要优势。 获取您所需的确切功能 您可以购买的现成电信软件有两个潜在问题。有些缺乏可能显着改善您工作效率的有用功能。有时您可以通过一些外部集成来增强它们,但这并不总是足以使它们变得出色。 其他软件功能过多,使用起来过于复杂。您可能不会使用其中的一些(永远不会!)。大量的功能通常还会增加价格。 基于您的需求

Arm64 架构开源软件的 CI/CD 难题与解决方案 在 Arm64 架构上部署开源软件需要一个强大的 CI/CD 环境。然而,Arm64 和传统 x86 处理器架构的支持水平之间存在差异,Arm64 通常处于劣势。面向多种架构的基础设施组件开发人员对工作环境有一定的期望: 一致性:跨平台使用的工具和方法保持一致,避免因采用不太流行的平台而需要改变开发流程。 性能:平台和支持机制具有良好的性能,确保在支持多个平台时部署方案不会因速度不足而受影响。 测试覆盖率:对所有平台同时进行效率、合规性和
