Python を使用してデータセットからデータをトレーニングおよびテストに分割する方法を学ぶ
まとめ
この記事では、データセットをトレーニング データとテスト データに分割し、この分割を .pkl ファイルに保存する方法について説明します。これは、機械学習モデルを組織的にトレーニングおよび評価するために不可欠です。このプロセスでは sklearn ライブラリと pickle ライブラリを使用するため、処理されたデータを将来のプロジェクトで再利用できます。この記事は、データ前処理に関する一連のチュートリアルの次のステップです。
取り上げる主なトピック:
- Google Colab でノートブックを準備
- データセットをトレーニング データとテスト データに分割する
- 除算のPythonコードの詳細説明
- pickle を使用して分割を .pkl ファイルに保存する
- 将来の使用のために処理済みデータを保存する利点
重要: この記事を進めるには、まず以下の記事を推奨される順序でお読みください。各記事は次の記事を理解するために必要な基礎を提供し、ここまでのワークフロー全体を確実に理解できます。
記事 1: 機械学習の適用: 分類モデルとして始めるためのガイド
記事 2: 機械学習における分類の探索: 変数のタイプ
記事 3: Google Colab の探索: 機械学習モデルのコーディングの味方
記事 4: Google Colab で Python を使用してデータを探索する: Adult.csv データセットを使用した実践ガイド
記事 5: LabelEncoder と OneHotEncoder を使用したプレディクター、クラス分割、カテゴリ属性の処理をわかりやすく説明する
第 6 条: データ スケーリング: 効率的なモデルの基礎
導入
この記事では、データセットをトレーニングとテストに分割する方法と、この分割を .pkl ファイルに保存する方法を学びます。このプロセスは、モデルのトレーニングに使用されるデータとそのパフォーマンスの評価に使用されるデータを明確に分離するために不可欠です。
Google Colab でプロセスを開始する
まず、このノートブックのリンクにアクセスし、ファイル > を選択します。 ドライブにコピーを保存。各チュートリアルでは新しいノートブックが作成され、この記事で紹介されている必要なコードのみが追加されますが、ノートブックにはこれまでに生成されたすべてのコード。ノートブックのコピーは Google ドライブの Colab Notebooks フォルダー内に保存され、プロセスが整理され継続的に行われます。
データセットをトレーニングとテストに分割するのはなぜでしょうか?
データセットの分割は、モデルがデータの一部から「学習」し (トレーニング)、これまでに見たことのない新しいデータで評価できるようにする (テスト) ため、あらゆる機械学習プロジェクトの基本的なステップです。この実践は、モデルの一般化を測定するために不可欠です。監視を容易にするために、次の変数を使用します:
- X_social_treinamento: 予測子変数のトレーニング
- X_social_teste: 予測子変数をテストします
- y_social_treinamento: トレーニング対象変数
- y_social_teste: テスト対象変数
データセットを分割するための Python コード
以下は、トレーニング データとテスト データの分割を実行する Python コードです。
from sklearn.model_selection import train_test_split X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0) # Dados para o treinamento X_adult_treinamento.shape, y_adult_treinamento.shape # Dados para o teste X_adult_teste.shape, y_adult_teste.shape
下の図は、前のコードと実行後の出力を示しています。
コードの説明:
train_test_split: データセットを分割する sklearn ライブラリの関数。
test_size=0.2: データの 20% がテスト用に予約され、残りの 80% がトレーニング用に予約されることを示します。
random_state=0: 除算が常に同じであることを保証し、実行ごとに一貫した結果を生成します。
shape: 分割後のデータの形状をチェックして、分割が正しく行われたことを確認します。
分割を .pkl ファイルに保存する
作業を容易にし、異なる実行間の一貫性を確保するために、トレーニング変数とテスト変数を .pkl ファイルに保存します。これにより、分割を再度行うことなく、必要なときにいつでもデータを再利用できるようになります。
pickle を使用して変数を保存するコード:
import pickle with open('adult.pkl', mode='wb') as fl: pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)
ノートブック上の Adult.pkl ファイルを表示するには、下の図に示すように、左側にあるフォルダー アイコンをクリックするだけです。
コードの説明:
pickle: オブジェクトをシリアル化するために使用される Python ライブラリ。これにより、複雑な変数をファイルに保存できます。
dump: 変数を Adult.pkl というファイルに保存します。このファイルは今後読み取られて、トレーニングとテストに分割されたデータセットを読み込み、ワークフローを最適化します。
結論
この記事では、データセットをトレーニング データとテスト データに分割し、.pkl ファイルに保存する方法を学びました。このプロセスは機械学習プロジェクトの基本であり、組織的かつ効率的な構造を確保します。次の記事では、Naive Bayes アルゴリズムから始めて、開発を続けるために Adult.pkl ファイルを使用したモデルの作成について説明します。
私がお勧めする本
1.データサイエンティストのための実践的な統計
2. Python を使用したコンピューティングの概要
3. 2041年: 人工知能は今後数十年であなたの生活をどう変える
4. Python集中コース
5. アルゴリズムを理解する。プログラマーや興味のある人のための図解ガイド
6. 人工知能 - Kai-Fu Lee
7. 人工知能入門 - 非技術的なアプローチ - Tom Taulli
新しい Kindle
私は今年発売された新しい Kindle を詳細に分析し、主な革新性とデジタル読者にとっての利点を強調しました。次のリンクで全文を確認してください: デジタル読書の魅力的な世界: Kindle を持つ利点.
アマゾンプライム
Amazon プライムに参加すると、何千もの映画、シリーズ、音楽への無制限のアクセスや、何百万もの商品の送料無料、短納期など、一連の利点が得られます。メンバーはまた、Prime Video、Prime Music、Prime Reading などのサービスで限定オファー、プロモーションや特典への早期アクセスを享受し、ショッピングやエンターテイメントの体験をさらに便利で豊かなものにします。
ご興味がございましたら、次のリンクをご利用ください: AMAZON PRIME は、人工知能とコンピューター プログラミングの推進を継続するのに役立ちます。
以上がPython を使用してデータセットからデータをトレーニングおよびテストに分割する方法を学ぶの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー(条件付きステートメントとループ)、3。機能の定義と使用を理解する4。

PythonはゲームとGUI開発に優れています。 1)ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2)GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1)自動化:OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2)スクリプトの書き込み:Psutilライブラリを使用してシステムリソースを監視します。 3)タスク管理:スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

PythonListSarePartOfThestAndardarenot.liestareBuilting-in、versatile、forStoringCollectionsのpythonlistarepart。
