基于scrapy实现的简单蜘蛛采集程序-Python教學-PHP中文網

首頁

後端開發

Python教學

基于scrapy实现的简单蜘蛛采集程序

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 10, 2016 pm 03:14 PM

scrapy 蜘蛛

本文实例讲述了基于scrapy实现的简单蜘蛛采集程序。分享给大家供大家参考。具体如下：

# Standard Python library imports
# 3rd party imports
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
# My imports
from poetry_analysis.items import PoetryAnalysisItem
HTML_FILE_NAME = r'.+\.html'
class PoetryParser(object):
  """
  Provides common parsing method for poems formatted this one specific way.
  """
  date_pattern = r'(\d{2} \w{3,9} \d{4})'
 
  def parse_poem(self, response):
    hxs = HtmlXPathSelector(response)
    item = PoetryAnalysisItem()
    # All poetry text is in pre tags
    text = hxs.select('//pre/text()').extract()
    item['text'] = ''.join(text)
    item['url'] = response.url
    # head/title contains title - a poem by author
    title_text = hxs.select('//head/title/text()').extract()[0]
    item['title'], item['author'] = title_text.split(' - ')
    item['author'] = item['author'].replace('a poem by', '')
    for key in ['title', 'author']:
      item[key] = item[key].strip()
    item['date'] = hxs.select("//p[@class='small']/text()").re(date_pattern)
    return item
class PoetrySpider(CrawlSpider, PoetryParser):
  name = 'example.com_poetry'
  allowed_domains = ['www.example.com']
  root_path = 'someuser/poetry/'
  start_urls = ['http://www.example.com/someuser/poetry/recent/',
         'http://www.example.com/someuser/poetry/less_recent/']
  rules = [Rule(SgmlLinkExtractor(allow=[start_urls[0] + HTML_FILE_NAME]),
                  callback='parse_poem'),
       Rule(SgmlLinkExtractor(allow=[start_urls[1] + HTML_FILE_NAME]),
                  callback='parse_poem')]

登入後複製

希望本文所述对大家的Python程序设计有所帮助。

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1665

CakePHP 教程

1424

Laravel 教程

1322

PHP教程

1270

C# 教程

1249

Related knowledge

Scrapy實現微信公眾號文章爬取與分析 Jun 22, 2023 am 09:41 AM

Scrapy實現微信公眾號文章爬取和分析微信是近年來備受歡迎的社群媒體應用，在其中運作的公眾號也扮演著非常重要的角色。眾所周知，微信公眾號是一個資訊和知識的海洋，因為其中每個公眾號都可以發布文章、圖文訊息等資訊。這些資訊可以被廣泛地應用在許多領域中，例如媒體報道、學術研究等。那麼，本篇文章將介紹如何使用Scrapy框架來實現微信公眾號文章的爬取與分析。 Scr

Scrapy基於Ajax非同步載入實作方法 Jun 22, 2023 pm 11:09 PM

Scrapy是一個開源的Python爬蟲框架，它可以快速且有效率地從網站上取得資料。然而，許多網站採用了Ajax非同步載入技術，使得Scrapy無法直接取得資料。本文將介紹基於Ajax非同步載入的Scrapy實作方法。一、Ajax非同步載入原理Ajax非同步載入：在傳統的頁面載入方式中，瀏覽器發送請求到伺服器後，必須等待伺服器回傳回應並將頁面全部載入完畢才能進行下一步操

Scrapy案例解析：如何抓取LinkedIn上公司訊息 Jun 23, 2023 am 10:04 AM

Scrapy是一個基於Python的爬蟲框架，可以快速且方便地獲取網路上的相關資訊。在本篇文章中，我們將透過Scrapy案例來詳細解析如何抓取LinkedIn上的公司資訊。確定目標URL首先，我們需要明確我們的目標是LinkedIn上的公司資訊。因此，我們需要找到LinkedIn公司資訊頁面的URL。開啟LinkedIn網站，在搜尋框中輸入公司名稱，在

在Scrapy爬蟲中使用Selenium和PhantomJS Jun 22, 2023 pm 06:03 PM

在Scrapy爬蟲中使用Selenium和PhantomJSScrapy是Python下的一個優秀的網路爬蟲框架，已經被廣泛應用於各個領域中的資料收集和處理。在爬蟲的實作中，有時候需要模擬瀏覽器操作去取得某些網站呈現的內容，這時候就需要用到Selenium和PhantomJS。 Selenium是模擬人類對瀏覽器的操作，讓我們可以自動化地進行網頁應用程式測試

Scrapy優化技巧：如何減少重複URL的爬取，提高效率 Jun 22, 2023 pm 01:57 PM

Scrapy是一個功能強大的Python爬蟲框架，可用於從網路上取得大量的資料。但是，在進行Scrapy開發時，經常會遇到重複URL的爬取問題，這會浪費大量的時間和資源，影響效率。本文將介紹一些Scrapy優化技巧，減少重複URL的爬取，提升Scrapy爬蟲的效率。一、使用start_urls和allowed_domains屬性在Scrapy爬蟲中，可

深度使用Scrapy：如何爬取HTML、XML、JSON資料？ Jun 22, 2023 pm 05:58 PM

Scrapy是一款強大的Python爬蟲框架，可以幫助我們快速、靈活地取得網路上的資料。在實際爬取過程中，我們會經常遇到HTML、XML、JSON等各種資料格式。在這篇文章中，我們將介紹如何使用Scrapy分別爬取這三種資料格式的方法。一、爬取HTML資料建立Scrapy專案首先，我們需要建立一個Scrapy專案。打開命令列，輸入以下命令：scrapys

如何使用Scrapy爬取豆瓣圖書及其評分和評論？ Jun 22, 2023 am 10:21 AM

隨著網路的發展，人們越來越依賴網路來獲取資訊。而對於圖書愛好者而言，豆瓣圖書已經成為了一個不可或缺的平台。並且，豆瓣圖書也提供了豐富的圖書評分和評論，使讀者能夠更全面地了解一本圖書。但是，手動取得這些資訊無異於大海撈針，這時候，我們可以藉助Scrapy工具進行資料爬取。 Scrapy是一個基於Python的開源網路爬蟲框架，它可以幫助我們有效率地

Scrapy實戰：爬取百度新聞數據 Jun 23, 2023 am 08:50 AM

Scrapy實戰：爬取百度新聞資料隨著網路的發展，人們獲取資訊的主要途徑已從傳統媒體轉移到網路，人們越來越依賴網路獲取新聞資訊。而對於研究者或分析師來說，需要大量的數據來進行分析和研究。因此，本文將介紹如何用Scrapy爬取百度新聞數據。 Scrapy是一個開源的Python爬蟲框架，它可以快速且有效率地爬取網站資料。 Scrapy提供了強大的網頁解析與抓取功

See all articles

基于scrapy实现的简单蜘蛛采集程序

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題