目录
什么是数据工程?
设置您的开发环境
1.数据存储:数据库和文件系统
设置 PostgreSQL
2.数据处理:PySpark 和分布式计算
使用 PySpark 处理数据
3.工作流程自动化:气流
使用 Airflow 自动化 ETL
4.系统监控
结论
首页 后端开发 Python教程 数据工程基础:实践指南

数据工程基础:实践指南

Jan 13, 2025 pm 10:33 PM

构建数据工程 ETL 管道的实用指南。本指南提供了一种理解和实施数据工程基础知识的实践方法,涵盖存储、处理、自动化和监控。

什么是数据工程?

数据工程专注于组织、处理和自动化数据工作流程,将原始数据转化为有价值的见解,以供分析和决策。 本指南涵盖:

  1. 数据存储:定义数据的存储位置和方式。
  2. 数据处理:清理和转换原始数据的技术。
  3. 工作流程自动化:实现无缝高效的工作流程执行。
  4. 系统监控:确保整个数据管道的可靠性和平稳运行。

让我们探索每个阶段!


设置您的开发环境

在我们开始之前,请确保您具备以下条件:

  1. 环境设置:
    • 基于 Unix 的系统 (macOS) 或适用于 Linux 的 Windows 子系统 (WSL)。
    • 已安装 Python 3.11(或更高版本)。
    • PostgreSQL 数据库在本地安装并运行。
  2. 先决条件:
    • 基本的命令行熟练程度。
    • 基础 Python 编程知识。
    • 软件安装和配置的管理权限。
  3. 架构概述: Data Engineering Foundations: A Hands-On Guide

该图说明了管道组件之间的交互。这种模块化设计充分利用了每种工具的优势:用于工作流程编排的 Airflow、用于分布式数据处理的 Spark 以及用于结构化数据存储的 PostgreSQL。

  1. 安装必要的工具:
    • PostgreSQL:
      brew update
      brew install postgresql
      登录后复制
      登录后复制
      登录后复制
    • PySpark:
      brew install apache-spark
      登录后复制
      登录后复制
      登录后复制
    • 气流:
      python -m venv airflow_env
      source airflow_env/bin/activate  # macOS/Linux
      pip install "apache-airflow[postgres]==" --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.10.4/constraints-3.11.txt"
      airflow db migrate
      登录后复制
      登录后复制
      登录后复制

Data Engineering Foundations: A Hands-On Guide

环境准备好了,我们来深入研究各个组件。


1.数据存储:数据库和文件系统

数据存储是任何数据工程管道的基础。 我们将考虑两个主要类别:

  • 数据库:有效组织的数据存储,具有搜索、复制和索引等功能。示例包括:
    • SQL 数据库: 用于结构化数据(例如 PostgreSQL、MySQL)。
    • NoSQL 数据库: 用于无模式数据(例如 MongoDB、Redis)。
  • 文件系统:适合非结构化数据,提供的功能比数据库少。

设置 PostgreSQL

  1. 启动 PostgreSQL 服务:
brew update
brew install postgresql
登录后复制
登录后复制
登录后复制

Data Engineering Foundations: A Hands-On Guide

  1. 创建数据库、连接并创建表:
brew install apache-spark
登录后复制
登录后复制
登录后复制
  1. 插入示例数据:
python -m venv airflow_env
source airflow_env/bin/activate  # macOS/Linux
pip install "apache-airflow[postgres]==" --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.10.4/constraints-3.11.txt"
airflow db migrate
登录后复制
登录后复制
登录后复制

Data Engineering Foundations: A Hands-On Guide

您的数据现已安全地存储在 PostgreSQL 中。


2.数据处理:PySpark 和分布式计算

数据处理框架将原始数据转化为可操作的见解。 Apache Spark 以其分布式计算能力成为热门选择。

  • 处理模式:
    • 批处理:以固定大小的批次处理数据。
    • 流处理:实时处理数据。
  • 常用工具: Apache Spark、Flink、Kafka、Hive。

使用 PySpark 处理数据

  1. 安装 Java 和 PySpark:
brew services start postgresql
登录后复制
  1. 从 CSV 文件加载数据:

使用以下数据创建 sales.csv 文件:

CREATE DATABASE sales_data;
\c sales_data
CREATE TABLE sales (
    id SERIAL PRIMARY KEY,
    item_name TEXT,
    amount NUMERIC,
    sale_date DATE
);
登录后复制

使用以下Python脚本加载和处理数据:

INSERT INTO sales (item_name, amount, sale_date)
VALUES ('Laptop', 1200, '2024-01-10'),
       ('Phone', 800, '2024-01-12');
登录后复制

Data Engineering Foundations: A Hands-On Guide Data Engineering Foundations: A Hands-On Guide

  1. 过滤高价值销售:
brew install openjdk@11 && brew install apache-spark
登录后复制

Data Engineering Foundations: A Hands-On Guide Spark UI - High-Value Sales

  1. 设置 Postgres DB 驱动程序: 如果需要,请下载 PostgreSQL JDBC 驱动程序并更新下面脚本中的路径。

  2. 将处理后的数据保存到 PostgreSQL:

brew update
brew install postgresql
登录后复制
登录后复制
登录后复制

Data Engineering Foundations: A Hands-On Guide Data Engineering Foundations: A Hands-On Guide Data Engineering Foundations: A Hands-On Guide

Spark数据处理完成。


3.工作流程自动化:气流

自动化使用调度和依赖关系定义简化工作流程管理。 Airflow、Oozie 和 Luigi 等工具有助于实现这一点。

使用 Airflow 自动化 ETL

  1. 初始化气流:
brew install apache-spark
登录后复制
登录后复制
登录后复制

Data Engineering Foundations: A Hands-On Guide Create Airflow User

  1. 创建工作流 (DAG):
python -m venv airflow_env
source airflow_env/bin/activate  # macOS/Linux
pip install "apache-airflow[postgres]==" --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.10.4/constraints-3.11.txt"
airflow db migrate
登录后复制
登录后复制
登录后复制

此 DAG 每天运行,执行 PySpark 脚本,并包含验证步骤。 失败时会发送电子邮件警报。

  1. 监控工作流程:将 DAG 文件放入 Airflow 的 dags/ 目录中,重新启动 Airflow 服务,并通过 http://localhost:8080 处的 Airflow UI 进行监控。

Data Engineering Foundations: A Hands-On Guide


4.系统监控

监控确保管道可靠性。 Airflow 的警报或与 Grafana 和 Prometheus 等工具的集成是有效的监控策略。 使用 Airflow UI 检查任务状态和日志。

Data Engineering Foundations: A Hands-On Guide


结论

您已经学会了设置数据存储、使用 PySpark 处理数据、使用 Airflow 自动化工作流程以及监控系统。 数据工程是一个关键领域,本指南为进一步探索奠定了坚实的基础。 请记住查阅提供的参考资料以获取更深入的信息。

以上是数据工程基础:实践指南的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Python vs.C:申请和用例 Python vs.C:申请和用例 Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务,而C 适用于系统编程、游戏开发和嵌入式系统。 Python以简洁和强大的生态系统着称,C 则以高性能和底层控制能力闻名。

您可以在2小时内学到多少python? 您可以在2小时内学到多少python? Apr 09, 2025 pm 04:33 PM

两小时内可以学到Python的基础知识。1.学习变量和数据类型,2.掌握控制结构如if语句和循环,3.了解函数的定义和使用。这些将帮助你开始编写简单的Python程序。

Python:游戏,Guis等 Python:游戏,Guis等 Apr 13, 2025 am 12:14 AM

Python在游戏和GUI开发中表现出色。1)游戏开发使用Pygame,提供绘图、音频等功能,适合创建2D游戏。2)GUI开发可选择Tkinter或PyQt,Tkinter简单易用,PyQt功能丰富,适合专业开发。

2小时的Python计划:一种现实的方法 2小时的Python计划:一种现实的方法 Apr 11, 2025 am 12:04 AM

2小时内可以学会Python的基本编程概念和技能。1.学习变量和数据类型,2.掌握控制流(条件语句和循环),3.理解函数的定义和使用,4.通过简单示例和代码片段快速上手Python编程。

Python:探索其主要应用程序 Python:探索其主要应用程序 Apr 10, 2025 am 09:41 AM

Python在web开发、数据科学、机器学习、自动化和脚本编写等领域有广泛应用。1)在web开发中,Django和Flask框架简化了开发过程。2)数据科学和机器学习领域,NumPy、Pandas、Scikit-learn和TensorFlow库提供了强大支持。3)自动化和脚本编写方面,Python适用于自动化测试和系统管理等任务。

Python与C:学习曲线和易用性 Python与C:学习曲线和易用性 Apr 19, 2025 am 12:20 AM

Python更易学且易用,C 则更强大但复杂。1.Python语法简洁,适合初学者,动态类型和自动内存管理使其易用,但可能导致运行时错误。2.C 提供低级控制和高级特性,适合高性能应用,但学习门槛高,需手动管理内存和类型安全。

Python和时间:充分利用您的学习时间 Python和时间:充分利用您的学习时间 Apr 14, 2025 am 12:02 AM

要在有限的时间内最大化学习Python的效率,可以使用Python的datetime、time和schedule模块。1.datetime模块用于记录和规划学习时间。2.time模块帮助设置学习和休息时间。3.schedule模块自动化安排每周学习任务。

Python:自动化,脚本和任务管理 Python:自动化,脚本和任务管理 Apr 16, 2025 am 12:14 AM

Python在自动化、脚本编写和任务管理中表现出色。1)自动化:通过标准库如os、shutil实现文件备份。2)脚本编写:使用psutil库监控系统资源。3)任务管理:利用schedule库调度任务。Python的易用性和丰富库支持使其在这些领域中成为首选工具。

See all articles