python爬取豆瓣top250的电影的信息,没有报错哦,但是没有结果
伊谢尔伦
伊谢尔伦 2017-04-18 10:04:02
[Python讨论组]
![#-*-coding:utf-8-*-
from scrapy import Spider
from scrapy.http import Request
from scrapy.selector import Selector
from douban.items import DoubanMovieItem
class Douban(Spider):
    name='douban'
    start_urls=['https://movie.douban.com/top250']
    #为了爬去下一页的数据的url
    url='https://movie.douban.com/top250'
    def parse(self,response):
        print response.body
        item=DoubanMovieItem()
        selector=Selector(response)
        #电影的信息全部在class为info的p中
        Mobies=selector.xpath('//p\[@class="info"\]')
        for eachMovie in Mobies:
            title=eachMovie.xpath('p\[@class="hd"\]/a/span/text()').extract()
            fullTitle=''
            for each in title:
                fullTitle+=each
            movieInfo=eachMovie.xpath('p\[@class="bd"\]/p/text()').extract()
            star=eachMovie.xpath('p\[@class="bd"\]/p\[@class="star\]/span/em/text()').extract()
            quote=eachMovie.xpath('p\[@class="bd"\]/p\[@class="quote\]/span/text()').extract()
            if quote:
                quote=quote[0]
            else:
                quote=''![图片描述][1]
            item['title']=fullTitle
            item['movieinfo']=';'.join(movieInfo)
            item['star']=star
            item['quote']=quote
            yield item
        nextlink=selector.xpath('//span\[@class="next"\]/link/@href').extract()
        if nextlink:
            nextlink=nextlink[0]
            print nextlink
            yield Request(self.url+nextlink,callable=self.parse)][1]
            
            
            
            
            setting的代码
                BOT_NAME = 'douban'

SPIDER_MODULES = ['douban.spiders']
NEWSPIDER_MODULE = 'douban.spiders'
USER_AGENT='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.8 Safari/537.36'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'douban (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = True
伊谢尔伦
伊谢尔伦

小伙看你根骨奇佳,潜力无限,来学PHP伐。

全部回复(1)
高洛峰

我去那个豆瓣页面看了一下,发现是这句

Mobies=selector.xpath('//p\[@class="info"\]')

写的有问题,导致selector返回空列表,试试把xpath规则改成//p[@class="info"]

捎带一提,如果不是故意的,变量名应该是Movies

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号