ある Pandas DataFrame から別の Pandas DataFrame に存在しない行を効率的に抽出する方法
あるデータフレームから別のデータフレームから除外された行を取得する
パンダでは、重複する可能性のあるデータを含む複数のデータフレームがあるのが一般的です。頻繁に発生するタスクの 1 つは、あるデータフレームから別のデータフレームに存在しない行を分離することです。この操作は、サブセットを操作する場合やデータをフィルター処理する場合に特に便利です。
問題の定式化:
2 つの pandas データフレームがあり、df1 には df2 と比較した行のスーパーセットが含まれているとします。 df2 では見つからない行を df1 で取得することを目的としています。以下の例は、このシナリオを簡単なケースで示しています。
import pandas as pd df1 = pd.DataFrame(data={'col1': [1, 2, 3, 4, 5], 'col2': [10, 11, 12, 13, 14]}) df2 = pd.DataFrame(data={'col1': [1, 2, 3], 'col2': [10, 11, 12]}) print(df1) print(df2) # Expected result: # col1 col2 # 3 4 13 # 4 5 14
解決策:
この問題に効果的に対処するために、左結合として知られる手法を採用します。この操作は、df1 からのすべての行が確実に保持されるようにしながら、df1 と df2 をマージします。さらに、マージ後の各行の起点を識別するためのインジケーター列が含まれています。 df2 からの一意の行を活用し、重複を除外することで、望ましい結果が得られます。
以下の Python コードは、このソリューションを実装しています。
df_all = df1.merge(df2.drop_duplicates(), on=['col1', 'col2'], how='left', indicator=True) result = df_all[df_all['_merge'] == 'left_only']
説明:
- 左結合: マージ関数df1 と df2.drop_duplicates() の間の左結合を実行します。この操作は、列col1とcol2の一致する値に基づいて、df1の行とdf2の行をマージします。
- マージインジケータ: インジケータパラメータは、_mergeという名前の追加の列を含めるためにTrueに設定されます。結果のデータフレーム df_all に含まれます。この列は各行の起点を示します。 df1 と df2 の両方に存在する行の場合は「both」、df1 のみに存在する行の場合は「left_only」、df2 のみの行の場合は「right_only」です。
- 'left_only' でフィルター: df2 にない行を df1 から分離するには、 _merge が「left_only」に等しい行をチェックすることにより、df_all データフレームを検証します。これにより、望ましい結果が得られます。
一般的な落とし穴の回避:
一部のソリューションでは、一致するのではなく、個々の列の値が誤ってチェックされる可能性があることに注意することが重要です。全体としての行。このようなアプローチでは、以下の例に示すように、不正確な結果が生じる可能性があります。
~df1.col1.isin(common.col1) & ~df1.col2.isin(common.col2)
このコードでは、行内の値の同時出現が考慮されていないため、df1 の行に個別に出現する値がある場合、不正確な結果が生成される可能性があります。
上記の左結合アプローチを採用することで、派生行が df1 専用のものとして正しく識別されるようになります。この手法は、あるデータフレームには存在するが別のデータフレームには存在しない行を抽出するための信頼性の高い効率的なソリューションを提供します。
以上がある Pandas DataFrame から別の Pandas DataFrame に存在しない行を効率的に抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー(条件付きステートメントとループ)、3。機能の定義と使用を理解する4。

PythonはゲームとGUI開発に優れています。 1)ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2)GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

2時間以内にPythonの基本を学ぶことができます。 1。変数とデータ型を学習します。2。ステートメントやループの場合などのマスター制御構造、3。関数の定義と使用を理解します。これらは、簡単なPythonプログラムの作成を開始するのに役立ちます。

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1)Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2)データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3)自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1)自動化:OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2)スクリプトの書き込み:Psutilライブラリを使用してシステムリソースを監視します。 3)タスク管理:スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。
