爬取某图片网站多页图片的python爬虫-PHP源码-php.cn

Home

php教程

PHP源码

爬取某图片网站多页图片的python爬虫

PHP中文网

May 26, 2016 am 08:18 AM

1. [代码][Python]代码

# coding=utf-8
import requests
import re
from lxml import etree
import time
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

#定义一个爬虫
class spider(object):
    def __init__(self):
        print u&#39;开始爬取内容。。。&#39;

#getsource用来获取网页源代码
    def getsource(self,url):
        html = requests.get(url)
        return html.text

#changepage用来生产不同页数的链接
    def changepage(self,url,total_page):
        now_page = int(re.search(&#39;index_(\d+)&#39;,url,re.S).group(1))   #可修改
        page_group = []
        for i in range(now_page,total_page+1):
            link = re.sub(&#39;index_\d+&#39;,&#39;index_%s&#39;%i,url,re.S)       #可修改
            page_group.append(link)
        return page_group

#getpic用来爬取一个网页图片
    def getpic(self,source):
        selector = etree.HTML(source)
        pic_url = selector.xpath(&#39;//ul[@class="ali"]/li/p/a/img/@src&#39;)   #可修改
        return pic_url

#savepic用来保存结果到pic文件夹中
    def savepic(self,pic_url):
        picname=re.findall(&#39;(\d+)&#39;,link,re.S)    #可修改
        picnamestr = &#39;&#39;.join(picname)
        i=0
        for each in pic_url:
            print &#39;now downloading:&#39; + each
            pic = requests.get(each)
            fp = open(&#39;pic\\&#39;+picnamestr +&#39;-&#39;+str(i)+ &#39;.jpg&#39;, &#39;wb&#39;)
            fp.write(pic.content)
            fp.close()
            i += 1

#ppic集合类的方法
    def ppic(self, link):
        print u&#39;正在处理页面：&#39; + link
        html = picspider.getsource(link)
        pic_url = picspider.getpic(html)
        picspider.savepic(pic_url)

time1=time.time()
if __name__ == &#39;__main__&#39;:
    url = &#39;http://www.ivsky.com/tupian/ziranfengguang/index_1.html&#39;   #可修改
    picspider = spider()
    all_links = picspider.changepage(url,3)     #可修改
    for link in all_links:
        picspider.ppic(link)
time2=time.time()
print u&#39;耗时:&#39;+str(time2-time1)

Copy after login

2. [文件] picspider.py ~ 2KB

# coding=utf-8
import requests
import re
from lxml import etree
import time
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

#定义一个爬虫
class spider(object):
    def __init__(self):
        print u&#39;开始爬取内容。。。&#39;

#getsource用来获取网页源代码
    def getsource(self,url):
        html = requests.get(url)
        return html.text

#changepage用来生产不同页数的链接
    def changepage(self,url,total_page):
        now_page = int(re.search(&#39;index_(\d+)&#39;,url,re.S).group(1))   #可修改
        page_group = []
        for i in range(now_page,total_page+1):
            link = re.sub(&#39;index_\d+&#39;,&#39;index_%s&#39;%i,url,re.S)       #可修改
            page_group.append(link)
        return page_group

#getpic用来爬取一个网页图片
    def getpic(self,source):
        selector = etree.HTML(source)
        pic_url = selector.xpath(&#39;//ul[@class="ali"]/li/p/a/img/@src&#39;)   #可修改
        return pic_url

#savepic用来保存结果到pic文件夹中
    def savepic(self,pic_url):
        picname=re.findall(&#39;(\d+)&#39;,link,re.S)    #可修改
        picnamestr = &#39;&#39;.join(picname)
        i=0
        for each in pic_url:
            print &#39;now downloading:&#39; + each
            pic = requests.get(each)
            fp = open(&#39;pic\\&#39;+picnamestr +&#39;-&#39;+str(i)+ &#39;.jpg&#39;, &#39;wb&#39;)
            fp.write(pic.content)
            fp.close()
            i += 1

#ppic集合类的方法
    def ppic(self, link):
        print u&#39;正在处理页面：&#39; + link
        html = picspider.getsource(link)
        pic_url = picspider.getpic(html)
        picspider.savepic(pic_url)

time1=time.time()
if __name__ == &#39;__main__&#39;:
    url = &#39;http://www.ivsky.com/tupian/ziranfengguang/index_1.html&#39;   #可修改
    picspider = spider()
    all_links = picspider.changepage(url,3)     #可修改
    for link in all_links:
        picspider.ppic(link)
time2=time.time()
print u&#39;耗时:&#39;+str(time2-time1)

Copy after login

3. [图片] 1.png

爬取某图片网站多页图片的python爬虫

Statement of this Website

The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn