機械学習に PySpark を使用する方法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

機械学習に PySpark を使用する方法

DDD

Dec 11, 2024 am 08:47 AM

Apache Spark (ビッグデータを処理するためのオープンソースフレームワーク) のリリース以来、Apache Spark は、複数のコンテナ間で大量のデータを並行して処理するために最も広く使用されているテクノロジの 1 つとなり、効率と速度を誇りにしています。以前に存在した同様のソフトウェアと比較してください。

この素晴らしいテクノロジーを Python で操作することは、Python プログラミング言語を使用して ApacheSpark と対話し、ApacheSpark の驚くべき可能性を活用できる Python API である PySpark を通じて実現できます。

この記事では、PySpark を使用して線形回帰アルゴリズムを使用して機械学習モデルを構築する方法を学び、開始します。

注: この記事に含まれる概念を正しく理解するには、Python、VSCode などの IDE、コマンドプロンプト/ターミナルの使用方法、および機械学習の概念に関する事前知識があることが不可欠です。

この記事を読み進めることで、次のことができるようになります:

ApacheSpark とは何かを理解します。
PySpark とそれを機械学習に使用する方法について学びます。

PySpark とは何ですか?

Apache Spark 公式 Web サイトによると、PySpark を使用すると、ApacheSpark (シンプルさ、スピード、スケーラビリティ、汎用性) と Python (豊富なエコシステム、成熟したライブラリ、シンプルさ) の強みを組み合わせて「データエンジニアリング」に活用できます。、データサイエンス、単一ノードマシンでの機械学習、またはクラスター.”

How to Use PySpark for Machine Learning
画像ソース

PySpark は ApacheSpark の Python API です。つまり、Python で書かれたコードが Scala で書かれた ApacheSpark テクノロジーと通信できるようにするインターフェイスとして機能します。このようにして、Python エコシステムにすでに精通している専門家は、ApacheSpark テクノロジーをすぐに利用できます。これにより、Python で使用される既存のライブラリの関連性も確保されます。

機械学習に PySpark を使用する方法の詳細ガイド

次の手順では、線形回帰アルゴリズムを使用して機械学習モデルを構築します。

プロジェクトの依存関係をインストールします: マシンに Python がすでにインストールされていると仮定します。インストールされていない場合は、次の手順に進む前にインストールしてください。ターミナルまたはコマンドプロンプトを開き、以下のコードを入力して PySpark ライブラリをインストールします。

pip install pyspark

ログイン後にコピー

これらの追加の Python ライブラリがない場合は、インストールできます。

pip install pyspark

ログイン後にコピー

ファイルを作成し、必要なライブラリをインポートします: VSCode を開き、選択したプロジェクトディレクトリにプロジェクトのファイル (例: pyspart_model.py) を作成します。ファイルを開き、プロジェクトに必要なライブラリをインポートします。

pip install pandas numpy

ログイン後にコピー

Spark セッションの作成: インポートの下に次のコードを入力して、プロジェクトの Spark セッションを開始します。

from pyspark.sql import SparkSession
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.evaluation import BinaryClassificationEvaluator
import pandas as pd

ログイン後にコピー

CSV ファイル (作業するデータセット) を読み込みます: プロジェクトディレクトリ/フォルダーに data.csv という名前のデータセットが既にある場合は、以下のコードを使用して読み込みます。

spark = SparkSession.builder.appName("LogisticRegressionExample").getOrCreate()

ログイン後にコピー

探索的データ分析: このステップは、作業しているデータセットを理解するのに役立ちます。 null 値を確認し、使用するクレンジングアプローチを決定します。

data = spark.read.csv("data.csv", header=True, inferSchema=True)

ログイン後にコピー

オプションで、小さなデータセットを操作している場合は、それを Python データフレームとディレクトリに変換し、Python を使用して欠損値をチェックできます。

# Display the schema my
 data.printSchema() 
# Show the first ten rows 
data.show(10)
# Count null values in each column
missing_values = df.select(
    [count(when(isnull(c), c)).alias(c) for c in df.columns]
)

# Show the result
missing_values.show()

ログイン後にコピー

データの前処理: このステップには、データセット内の列/特徴を、PySpark の機械学習ライブラリが容易に理解できる、または互換性のある形式に変換することが含まれます。

すべての機能を 1 つのベクトル列に結合するには、VectorAssembler を使用します。

pandas_df = data.toPandas()
# Use Pandas to check missing values
print(pandas_df.isna().sum())

ログイン後にコピー

データセットを分割: 都合の良い比率でデータセットを分割します。ここでは、70% から 30% を使用しています。70% はトレーニングに、30% はモデルのテストに使用されます。

# Combine feature columns into a single vector column
feature_columns = [col for col in data.columns if col != "label"]
assembler = VectorAssembler(inputCols=feature_columns, outputCol="features")

# Transform the data
data = assembler.transform(data)

# Select only the 'features' and 'label' columns for training
final_data = data.select("features", "label")

# Show the transformed data
final_data.show(5)

ログイン後にコピー

モデルをトレーニングする: モデルのトレーニングにはロジスティック回帰アルゴリズムを使用しています。

LogisticRegression クラスのインスタンスを作成し、モデルを適合させます。

train_data, test_data = final_data.randomSplit([0.7, 0.3], seed=42)

ログイン後にコピー

トレーニングされたモデルで予測を行う: 前のステップでトレーニングしたモデルを使用して予測を行います

lr = LogisticRegression(featuresCol="features", labelCol="label")

# Train the model
lr_model = lr.fit(train_data)

ログイン後にコピー

モデル評価: ここでは、予測パフォーマンスまたは正確性のレベルを決定するためにモデルが評価されています。これは、適切な評価指標を使用することで実現されます。

AUC メトリクスを使用してモデルを評価する

predictions = lr_model.transform(test_data)
# Show predictions
predictions.select("features", "label", "prediction", "probability").show(5)

ログイン後にコピー

この記事で使用されるエンドツーエンドのコードを以下に示します。

evaluator = BinaryClassificationEvaluator(rawPredictionCol="rawPrediction", labelCol="label", metricName="areaUnderROC")

# Compute the AUC
auc = evaluator.evaluate(predictions)
print(f"Area Under ROC: {auc}")

ログイン後にコピー

次のステップ?

この記事は終わりに達しました。上記の手順に従って、PySpark を使用して機械学習モデルを構築しました。

次のステップに進む前に、データセットがクリーンで null 値がないことを必ず確認してください。最後に、モデルのトレーニングに進む前に、すべての特徴に数値が含まれていることを確認してください。

以上が機械学習に PySpark を使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1670

CakePHP チュートリアル

1428

Laravel チュートリアル

1329

PHP チュートリアル

1274

C# チュートリアル

1256

Related knowledge

Python vs. C：曲線と使いやすさの学習 Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Pythonと時間：勉強時間を最大限に活用する Apr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python vs. C：パフォーマンスと効率の探索 Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

Pythonの学習：2時間の毎日の研究で十分ですか？ Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Python vs. C：重要な違いを理解します Apr 21, 2025 am 12:18 AM

PythonとCにはそれぞれ独自の利点があり、選択はプロジェクトの要件に基づいている必要があります。 1）Pythonは、簡潔な構文と動的タイピングのため、迅速な開発とデータ処理に適しています。 2）Cは、静的なタイピングと手動メモリ管理により、高性能およびシステムプログラミングに適しています。

Python Standard Libraryの一部はどれですか：リストまたは配列はどれですか？ Apr 27, 2025 am 12:03 AM

PythonListSarePartOfThestAndardarenot.liestareBuilting-in、versatile、forStoringCollectionsのpythonlistarepart。

Python：自動化、スクリプト、およびタスク管理 Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

Web開発用のPython：主要なアプリケーション Apr 18, 2025 am 12:20 AM

Web開発におけるPythonの主要なアプリケーションには、DjangoおよびFlaskフレームワークの使用、API開発、データ分析と視覚化、機械学習とAI、およびパフォーマンスの最適化が含まれます。 1。DjangoandFlask Framework：Djangoは、複雑な用途の迅速な発展に適しており、Flaskは小規模または高度にカスタマイズされたプロジェクトに適しています。 2。API開発：フラスコまたはdjangorestFrameworkを使用して、Restfulapiを構築します。 3。データ分析と視覚化：Pythonを使用してデータを処理し、Webインターフェイスを介して表示します。 4。機械学習とAI：Pythonは、インテリジェントWebアプリケーションを構築するために使用されます。 5。パフォーマンスの最適化：非同期プログラミング、キャッシュ、コードを通じて最適化

See all articles

機械学習に PySpark を使用する方法

PySpark とは何ですか?

機械学習に PySpark を使用する方法の詳細ガイド

次のステップ?

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック