TFIDFVectorizerを使用して、テキストドキュメントをTF-IDFマトリックスに変換します-AI-php.cn

数値TF-IDF計算

文書：

ステップ1：必要なライブラリのインストール

ステップ2：ライブラリのインポート

ステップ3：データセットのロード

ステップ4： TfidfVectorizerの初期化

ステップ5：ドキュメントの取り付けと変換

ステップ6：TF-IDFマトリックスの検査

ホームページ

テクノロジー周辺機器

TFIDFVectorizerを使用して、テキストドキュメントをTF-IDFマトリックスに変換します

Christopher Nolan

Apr 18, 2025 am 10:26 AM

この記事では、テキストデータを分析するための自然言語処理（NLP）の重要なツールである周波数逆文書頻度（TF-IDF）手法について説明します。 TF-IDFは、ドキュメント内の頻度とドキュメントのコレクション全体にわたって希少性に基づいて項を重み付けすることにより、基本的な言葉の袋のアプローチの制限を上回ります。この強化された重み付けにより、テキスト分類が改善され、機械学習モデルの分析機能が向上します。 TF-IDFモデルをPythonでゼロから構築し、数値計算を実行する方法を示します。

TF-IDFの重要な用語
用語頻度（TF）が説明しました
ドキュメント頻度（DF）が説明しました
逆ドキュメント頻度（IDF）が説明しました
TF-IDFの理解
- 数値TF-IDF計算
- ステップ1：ターム周波数の計算（TF）
- ステップ2：逆ドキュメント頻度の計算（IDF）
- ステップ3：TF-IDFの計算
内蔵データセットを使用したPython実装
- ステップ1：必要なライブラリのインストール
- ステップ2：ライブラリのインポート
- ステップ3：データセットのロード
- ステップ4： TfidfVectorizerの初期化
- ステップ5：ドキュメントの取り付けと変換
- ステップ6：TF-IDFマトリックスの検査
結論
よくある質問

TF-IDFの重要な用語

先に進む前に、重要な用語を定義しましょう。

T ：用語（個々の単語）
D ：ドキュメント（単語のセット）
N ：コーパス内のドキュメントの総数
コーパス：ドキュメントのコレクション全体

用語頻度（TF）が説明しました

用語頻度（TF）は、特定のドキュメントに用語が表示される頻度を定量化します。より高いTFは、そのドキュメント内でより重要性を示しています。式は次のとおりです。

TFIDFVectorizerを使用して、テキストドキュメントをTF-IDFマトリックスに変換します

ドキュメント頻度（DF）が説明しました

ドキュメント頻度（DF）は、特定の用語を含むコーパス内のドキュメントの数を測定します。 TFとは異なり、その発生ではなく、用語の存在をカウントします。式は次のとおりです。

df（t）=用語tを含むドキュメントの数

逆ドキュメント頻度（IDF）が説明しました

逆ドキュメント頻度（IDF）は、単語の情報性を評価します。 TFはすべての用語を平等に扱いますが、IDFのダウンウェイトは一般的な単語（停止単語など）と高級の希少な用語を扱います。式は次のとおりです。

TFIDFVectorizerを使用して、テキストドキュメントをTF-IDFマトリックスに変換します

ここで、nはドキュメントの総数とdf（t）は、用語tを含むドキュメントの数です。

TF-IDFの理解

TF-IDFは、用語頻度と逆文書頻度を組み合わせて、コーパス全体に比べてドキュメント内の用語の重要性を決定します。式は次のとおりです。

TFIDFVectorizerを使用して、テキストドキュメントをTF-IDFマトリックスに変換します

数値TF-IDF計算

例のドキュメントを使用して、数値TF-IDF計算を説明しましょう。

文書：

「空は青い。」
「今日の太陽は明るいです。」
「空の太陽は明るいです。」
「輝く太陽、明るい太陽が見えます。」

元のテキストで概説されている手順に従って、各ドキュメントの各用語のTF、IDF、およびTF-IDFを計算します。（Brevityのために詳細な計算はここでは省略されていますが、元の例を反映しています。）

内蔵データセットを使用したPython実装

このセクションでは、SCIKIT-LEARNのTfidfVectorizerおよび20のNewsGroups Datasetを使用したTF-IDF計算を示します。

ステップ1：必要なライブラリのインストール

ピップインストールScikit-Learn

ログイン後にコピー

ステップ2：ライブラリのインポート

PDとしてパンダをインポートします
sklearn.datasetsからfetch_20newsgroupsをインポートします
Sklearn.feature_extraction.textからtfidfvectorizerをインポートします

ログイン後にコピー

ステップ3：データセットのロード

newsgroups = fetch_20newsgroups（subset = 'train'）

ログイン後にコピー

ステップ4： `TfidfVectorizer`の初期化

vectorizer = tfidfvectorizer（stop_words = 'inglish'、max_features = 1000）

ログイン後にコピー

ステップ5：ドキュメントの取り付けと変換

tfidf_matrix = vectorizer.fit_transform（newsgroups.data）

ログイン後にコピー

ステップ6：TF-IDFマトリックスの検査

df_tfidf = pd.dataframe（tfidf_matrix.toarray（）、columns = vectorizer.get_feature_names_out（）））
df_tfidf.head（）

ログイン後にコピー

TFIDFVectorizerを使用して、テキストドキュメントをTF-IDFマトリックスに変換します

結論

20のNewsGroups DatasetとTfidfVectorizerを使用して、テキストドキュメントをTF-IDFマトリックスに効率的に変換します。このマトリックスは、各用語の重要性を表し、テキスト分類やクラスタリングなどのさまざまなNLPタスクを可能にします。 Scikit-LearnのTfidfVectorizer 、このプロセスを大幅に簡素化します。

よくある質問

FAQSセクションは、IDFの対数性、大規模なデータセットへのスケーラビリティ、TF-IDFの制限（語順とコンテキストを無視）、および一般的なアプリケーション（検索エンジン、テキスト分類、クラスタリング、要約）の制限に対処することはほとんど変わらないままです。

以上がTFIDFVectorizerを使用して、テキストドキュメントをTF-IDFマトリックスに変換しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。