ホームページ バックエンド開発 Python チュートリアル Python クローラー フレームワーク Scrapy をインストールして使用する手順

Python クローラー フレームワーク Scrapy をインストールして使用する手順

Jun 16, 2016 am 08:44 AM
python Python クローラー scrapy

1. クローラー フレームワーク Scarpy の紹介
Scrapy は、Web サイトをクロールし、Web サイトのページから構造化データを取得する、高速で高レベルの画面スクレイピングおよび Web クローラー フレームワークです。監視と自動テストについては、Scrapy は完全に Python で実装されており、コードは Github でホストされており、ネットワーク通信を処理するための Twisted の非同期ネットワーク ライブラリに基づいて Linux、Windows、Mac、BSD プラットフォームで実行できます。ユーザーは開発をカスタマイズするだけで済みます。いくつかのモジュールで、Web コンテンツやさまざまな画像をクロールするクローラーを簡単に実装できます。

2. Scrapy インストールガイド

インストール手順では、次のコンテンツがすでにインストールされていることを前提としています: <1>Python2.7<2>lxml<3>OpenSSL Scrapy をインストールするには、Python のパッケージ管理ツール pip または easy_install を使用します。
Pip インストール方法:

コードをコピー コードは次のとおりです:
pip install Scrapy
easy_install インストールメソッド:
コードをコピー コードは次のとおりです:
easy_install Scrapy

3. Ubuntu プラットフォームでの環境設定

1. Python パッケージ管理ツール
現在のパッケージ管理ツール チェーンは easy_install/pip + distribution/setuptools
distutils: 非常に単純なアプリケーション シナリオに適した Python 独自の基本インストール ツールです。 distutils には多くの拡張機能が作成されており、特にパッケージの依存関係メカニズムが一部の Python サブコミュニティで事実上の標準になっています。
distribute: setuptools の開発の進行が遅いため、Python 3 はサポートされていません。コードは混乱しており、setuptools を置き換えて公式の標準ライブラリとして受け入れられることを望んでいるプログラマが、コードを最初からリファクタリングし、関数を追加するのに役立ち、短期間でコミュニティに setuptools/distribute のみの配布を受け入れさせました。 distutils;
easy_install: setuptools と distribution に付属するインストール スクリプト。つまり、setuptools または distribution がインストールされると、easy_install も自動的に検出されます。これは、Python によって公式に保守されているパッケージ ソースです。サードパーティの Python パッケージをインストールするのに非常に便利です。
pip を使用します。pip の目的は非常に明確です。easy_install には多くの欠点があります。インストール トランザクションは非アトミックな操作であり、サポートされるのはsvn はアンインストール コマンドを提供せず、一連のパッケージをインストールするときにスクリプトを作成する必要があります。pip は上記の問題を解決し、新しい事実上の標準となった virtualenv は優れたパートナーとなっています。
インストールプロセス:

インストール、配布



コードのコピー コードは次のとおりです: $curl -O http:/ /python-distribute.org/distribute_setup.py $ python distribution_setup.py

pip をインストールします:

コードをコピーします コードは次のとおりです次のように: $curl -O https://raw.github.com/pypa/pip/master/contrib/get-pip.py $ [sudo] python get-pip.py

2. Scrapy のインストール Windows プラットフォームでは、パッケージ管理ツールを使用するか、さまざまな依存バイナリ パッケージを手動でダウンロードできます: pywin32、Twisted、zope.interface、lxml、pyOpenSSL (Ubuntu9.10 以降のバージョン) Ubuntu が提供する python-scrapy パッケージは最新の Scrapy に適合するには古すぎるか、遅すぎるため、使用しないことが公式に推奨されています。解決策は、すべての依存ライブラリを提供し、最新の Scrapy に適した公式の Ubuntu パッケージを使用することです。バグは継続的な更新と高い安定性を提供します。Ubuntu 9.10 以降のバージョンでの Scrapy のインストール方法は次のとおりです。


>

コードをコピー コードは次のとおりです:sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 - -recv 627220E7
/etc/apt/sources.list.d/scrapy.list ファイルを作成

コードをコピーコードは次のとおりです:echo 'deb http://archive.scrapy.org/ubuntuscrapy main' | sudo tee /etc/apt/sources.list.d/scrapy.list
<3> ;パッケージリストを更新し、scrapy バージョンをインストールします。VERSION は、scrapy-0.22 などの実際のバージョンに置き換えられます

コードをコピーしますコードは次のとおりです: sudo apt-get update && sudo apt-get installscrapy-VERSION
3. Scrapy 依存ライブラリのインストールubuntu12.04 での Scrapy 依存ライブラリのインストール

インポートエラー: w3lib.http という名前のモジュールがありません


コードをコピーします コードは次のとおりです: pip install w3lib
ImportError: No module namesTwisted

コードをコピーコードは次のとおりです。 pip installTwisted
ImportError: No module names lxml.html

Copy codeコードは次のとおりです:pip install lxml
解決策: エラー: libxml/xmlversion.h: そのようなファイルまたはディレクトリはありません

コードをコピーします コードは次のとおりです:
apt-get install libxml2-dev libxslt-dev
apt-get install python -lxml
解決策: ImportError: cssselect という名前のモジュールがありません

コードをコピー コードは次のとおりです:
pip install cssselect
ImportError: OpenSSL という名前のモジュールがありません
コードをコピーします コードは次のとおりです:
pip install pyOpenSSL

4. 独自のクローラ開発をカスタマイズします
ファイル ディレクトリに切り替えて、新しいプロジェクトを開きます

コードをコピーします コードは次のとおりです。
卑劣な startproject テスト

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

PHPおよびPython:さまざまなパラダイムが説明されています PHPおよびPython:さまざまなパラダイムが説明されています Apr 18, 2025 am 12:26 AM

PHPは主に手順プログラミングですが、オブジェクト指向プログラミング(OOP)もサポートしています。 Pythonは、OOP、機能、手続き上のプログラミングなど、さまざまなパラダイムをサポートしています。 PHPはWeb開発に適しており、Pythonはデータ分析や機械学習などのさまざまなアプリケーションに適しています。

PHPとPythonの選択:ガイド PHPとPythonの選択:ガイド Apr 18, 2025 am 12:24 AM

PHPはWeb開発と迅速なプロトタイピングに適しており、Pythonはデータサイエンスと機械学習に適しています。 1.PHPは、単純な構文と迅速な開発に適した動的なWeb開発に使用されます。 2。Pythonには簡潔な構文があり、複数のフィールドに適しており、強力なライブラリエコシステムがあります。

PHPとPython:彼らの歴史を深く掘り下げます PHPとPython:彼らの歴史を深く掘り下げます Apr 18, 2025 am 12:25 AM

PHPは1994年に発信され、Rasmuslerdorfによって開発されました。もともとはウェブサイトの訪問者を追跡するために使用され、サーバー側のスクリプト言語に徐々に進化し、Web開発で広く使用されていました。 Pythonは、1980年代後半にGuidovan Rossumによって開発され、1991年に最初にリリースされました。コードの読みやすさとシンプルさを強調し、科学的コンピューティング、データ分析、その他の分野に適しています。

Python vs. JavaScript:学習曲線と使いやすさ Python vs. JavaScript:学習曲線と使いやすさ Apr 16, 2025 am 12:12 AM

Pythonは、スムーズな学習曲線と簡潔な構文を備えた初心者により適しています。 JavaScriptは、急な学習曲線と柔軟な構文を備えたフロントエンド開発に適しています。 1。Python構文は直感的で、データサイエンスやバックエンド開発に適しています。 2。JavaScriptは柔軟で、フロントエンドおよびサーバー側のプログラミングで広く使用されています。

Sublime Code Pythonを実行する方法 Sublime Code Pythonを実行する方法 Apr 16, 2025 am 08:48 AM

PythonコードをSublimeテキストで実行するには、最初にPythonプラグインをインストールし、次に.pyファイルを作成してコードを書き込み、Ctrl Bを押してコードを実行する必要があります。コードを実行すると、出力がコンソールに表示されます。

vscodeでコードを書く場所 vscodeでコードを書く場所 Apr 15, 2025 pm 09:54 PM

Visual Studioコード(VSCODE)でコードを作成するのはシンプルで使いやすいです。 VSCODEをインストールし、プロジェクトの作成、言語の選択、ファイルの作成、コードの書き込み、保存して実行します。 VSCODEの利点には、クロスプラットフォーム、フリーおよびオープンソース、強力な機能、リッチエクステンション、軽量で高速が含まれます。

Visual StudioコードはPythonで使用できますか Visual StudioコードはPythonで使用できますか Apr 15, 2025 pm 08:18 PM

VSコードはPythonの書き込みに使用でき、Pythonアプリケーションを開発するための理想的なツールになる多くの機能を提供できます。ユーザーは以下を可能にします。Python拡張機能をインストールして、コードの完了、構文の強調表示、デバッグなどの関数を取得できます。デバッガーを使用して、コードを段階的に追跡し、エラーを見つけて修正します。バージョンコントロールのためにGitを統合します。コードフォーマットツールを使用して、コードの一貫性を維持します。糸くずツールを使用して、事前に潜在的な問題を発見します。

メモ帳でPythonを実行する方法 メモ帳でPythonを実行する方法 Apr 16, 2025 pm 07:33 PM

メモ帳でPythonコードを実行するには、Python実行可能ファイルとNPPEXECプラグインをインストールする必要があります。 Pythonをインストールしてパスを追加した後、nppexecプラグインでコマンド「python」とパラメーター "{current_directory} {file_name}"を構成して、メモ帳のショートカットキー「F6」を介してPythonコードを実行します。

See all articles