(.*?)

집

백엔드 개발

파이썬 튜토리얼

多线程爬虫批量下载pcgame图片url 保存为xml的实现代码

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 16, 2016 am 08:46 AM

멀티스레딩 일괄 다운로드 비열한

复制代码代码如下:

#coding=gbk
from xml.dom import minidom,Node
import urllib2,re,os
def readsrc(src):
    try:
        url = urllib2.urlopen(src)
        content = url.read()#.decode('utf-8')
        return content
    except:
        print 'error'
        return None
def pictype(content):
    '''
    通过抓取网站导航栏，获得网站的图片类型
    返回列表，每个列表元素为一个字典，addr代表图片类型对于的链接，name代表图片类型的名称
    错误会返回None
    '''
    p = re.compile(r'

(.*)',re.S)
    r=p.search(content)
    if r:
        content=r.group()
    else:
        print None
    p = re.compile(r'

\s*.*?)">(?P.*?)\s*\s*

    l = [i.groupdict() for i in p.finditer(content)]
    l=l[1:]
    if len(l):return l
    else:return None
def pageinfo(src):
    '''
    获取一个页面的详细信息
    返回对于的字典列表
    name:图片的名字
    cutaddr：缩小的浏览图
    picaddr：实际图片的地址
    '''
    d=os.path.split(src)[0]
    try:
        url = urllib2.urlopen(src)
        content = url.read()#.decode('utf-8')
    except:
        print 'error'
        return None
    #find all the pictures info in a page
    p = re.compile(r'

(.*?)',re.S)
    r = p.findall(content)
    if not r: return None
    r = r[1]
    p = re.compile(r'

.*?)" * */>.*?

')
    l = [ i.groupdict() for i in p.finditer(r)]
    for i in l:
        i['picaddr']=d+'/'+i['picaddr']
    if len(l): return l
    else: return None

def nextpageaddr(src):
    '''
    从页面的html源码中获取下一个页面地址的名称，最后一页返回None
    '''
    content=readsrc(src)
    p = re.compile(r'.*?')
    r = p.search(content)
    if r:
        return os.path.dirname(src)+"/"+r.group(1)
    else:
        return None
def picinfoaddr(src):
    '''
    参数相册图集的html代码
    返回全部图片的相对地址
    '''
    content=readsrc(src)
    p = re.compile(r'

.*?.*?

',re.S)
    r = p.search(content)
    if r:
        return os.path.dirname(src)+"/"+r.group(1)
    else:
        return None
def parseinfo(content):
    '''
    读取全部图片html代码，获得一个相册的详细信息
    kw：关键字
    title：标题
    type：类型
    pic：各个图片的地址列表，末尾加上_220x165，_medium,_small 可以得到不同大小的图片
    '''
    info={}
    temp=str()

    #title
    temp=''
    r=re.search('

(.*?)

',content)#get the pic title
    if r:
        temp = r.group(1)
    info['title']=temp

    #keyword
    temp=''
    r=re.search('',content)
    if r:
        temp = r.group(1)
    info['kw']=temp

    #type
    r=re.findall('(.*?).*?>',content)
    if r:
        info['type']=':'.join(r)
    else:
        info['type']=''
    r=re.search('

(.*?)',content,re.S)
    if not r:return None
    content=r.group(1)#filter content
#    print content
    r=re.findall('',content)

    for index,i in enumerate(r):
        r[index]=i[0:i.rfind('_')]
#        print r[index]
    info['pic']=r
    return info
import threading
class mthread(threading.Thread):
    def __init__(self,tp,addr,lock):
        threading.Thread.__init__(self)
#        self.doc = minidom.Document()
        self.doc=minidom.Document()
        self.tp=tp
        self.lock=lock
        self.addr=addr
        self.thread_stop=False
        self.picdoc=None
    def run(self):
        self.picdoc = self.doc.createElement('urlclass')
#        print self.tp
        self.picdoc.setAttribute('type',self.tp)
#        self.doc.appendChild(self.picdoc)
        m=pageinfo(self.addr)
        while self.addr:
            for i in m:
#                print i['picaddr']
                picaddr=picinfoaddr(i['picaddr'])
#                print picaddr
                info=parseinfo(readsrc(picaddr))
                name=info['title']

picture=doc.createElement('picture')

                title = doc.createElement('title')
                title.appendChild(doc.createTextNode(info['title']))
                picture.appendChild(title)

                keyword = doc.createElement('keywords')
                keyword.appendChild(doc.createTextNode(info['kw']))
                picture.appendChild(keyword)

                tp = doc.createElement('pictype')
                tp.appendChild(doc.createTextNode(info['type']))
                picture.appendChild(tp)

                cuturl = doc.createElement('piccut')
                cuturl.appendChild(doc.createTextNode(i['cutaddr']))
                picture.appendChild(cuturl)

                urls = doc.createElement('urls')
                self.lock.acquire()
                print 'downloading ',name
                self.lock.release()
                for picurl in info['pic']:
                    singleurl=doc.createElement('url')
                    singleurl.appendChild(doc.createTextNode(picurl+'.jpg'))
                    urls.appendChild(singleurl)

                picture.appendChild(urls)
                self.picdoc.appendChild(picture)
            m=pageinfo(self.addr)
            self.addr=nextpageaddr(self.addr)
#        f = open('c:\\'+self.tp+'.xml','w')
#        f.write(doc.toprettyxml(indent = ''))
#        f.close()
    def stop(self):
        self.thread_stop=True

path='C:\\pict\\'#下载的路径
#import sys
sys.exit(12)
content=readsrc('http://photos.pcgames.com.cn/cate/3/1.html')
r=pictype(content)
lt=[]
doc = minidom.Document()
root=doc.createElement('url_resource')
root.setAttribute('type','url')
root.setAttribute('urltype','image')
root.setAttribute('imgfmt','jpg')
doc.appendChild(root)
lock=threading.RLock()
for iaddr in r:
    print 'downloading type: ',iaddr['name']
    addr=iaddr['addr']
    th=mthread(iaddr['name'],addr,lock)
    lt.append(th)
    th.start()
for t in lt:
    t.join()
    root.appendChild(t.picdoc)

print 'write'
f = open('c:\\'+'urls'+'.xml','w')
f.write(doc.toprettyxml(indent = ''))
f.close()
print doc.toprettyxml()
print 'end'

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1664

Cakephp 튜토리얼

1421

라라벨 튜토리얼

1316

PHP 튜토리얼

1266

C# 튜토리얼

1239

Related knowledge

C++ 함수 예외 및 멀티스레딩: 동시 환경의 오류 처리 May 04, 2024 pm 04:42 PM

C++의 함수 예외 처리는 다중 스레드 환경에서 스레드 안전성과 데이터 무결성을 보장하는 데 특히 중요합니다. try-catch 문을 사용하면 특정 유형의 예외가 발생할 때 이를 포착하고 처리하여 프로그램 충돌이나 데이터 손상을 방지할 수 있습니다.

PHP에서 멀티스레딩을 구현하는 방법은 무엇입니까? May 06, 2024 pm 09:54 PM

PHP 멀티스레딩은 독립적으로 실행되는 스레드를 생성하여 하나의 프로세스에서 여러 작업을 동시에 실행하는 것을 의미합니다. PHP에서 Pthreads 확장을 사용하여 멀티스레딩 동작을 시뮬레이션할 수 있습니다. 설치 후 Thread 클래스를 사용하여 스레드를 생성하고 시작할 수 있습니다. 예를 들어, 대량의 데이터를 처리할 경우 데이터를 여러 블록으로 나누어 해당 개수의 스레드를 생성해 동시 처리함으로써 효율성을 높일 수 있다.

Java 기능의 동시성과 멀티스레딩이 어떻게 성능을 향상시킬 수 있습니까? Apr 26, 2024 pm 04:15 PM

Java 기능을 사용하는 동시성 및 멀티스레딩 기술은 다음 단계를 포함하여 애플리케이션 성능을 향상시킬 수 있습니다. 동시성 및 멀티스레딩 개념을 이해합니다. ExecutorService 및 Callable과 같은 Java의 동시성 및 멀티스레딩 라이브러리를 활용합니다. 멀티 스레드 행렬 곱셈과 같은 실습 사례를 통해 실행 시간을 대폭 단축할 수 있습니다. 동시성 및 멀티스레딩을 통해 향상된 애플리케이션 응답 속도와 최적화된 처리 효율성의 이점을 누려보세요.

다중 스레드 환경에서 PHP 함수는 어떻게 작동합니까? Apr 16, 2024 am 10:48 AM

다중 스레드 환경에서 PHP 함수의 동작은 해당 유형에 따라 다릅니다. 일반 함수: 스레드로부터 안전하며 동시에 실행될 수 있습니다. 전역 변수를 수정하는 함수: 안전하지 않으므로 동기화 메커니즘을 사용해야 합니다. 파일 작업 기능: 안전하지 않으므로 액세스를 조정하려면 동기화 메커니즘을 사용해야 합니다. 데이터베이스 운영 기능: 안전하지 않으므로 충돌을 방지하기 위해 데이터베이스 시스템 메커니즘을 사용해야 합니다.

C++의 멀티스레딩에서 공유 리소스를 처리하는 방법은 무엇입니까? Jun 03, 2024 am 10:28 AM

뮤텍스는 C++에서 다중 스레드 공유 리소스를 처리하는 데 사용됩니다. std::mutex를 통해 뮤텍스를 만듭니다. mtx.lock()을 사용하여 뮤텍스를 획득하고 공유 리소스에 대한 독점 액세스를 제공합니다. 뮤텍스를 해제하려면 mtx.unlock()을 사용하세요.

멀티 스레드 환경에서 JUnit 단위 테스트 프레임워크 사용 Apr 18, 2024 pm 03:12 PM

다중 스레드 환경에서 JUnit을 사용할 때 단일 스레드 테스트와 다중 스레드 테스트라는 두 가지 일반적인 접근 방식이 있습니다. 단일 스레드 테스트는 동시성 문제를 방지하기 위해 기본 스레드에서 실행되는 반면, 다중 스레드 테스트는 작업자 스레드에서 실행되며 공유 리소스가 방해받지 않도록 동기화된 테스트 접근 방식이 필요합니다. 일반적인 사용 사례에는 ConcurrentHashMap을 사용하여 키-값 쌍을 저장하는 것과 같은 다중 스레드로부터 안전한 방법을 테스트하는 것과 동시 스레드를 사용하여 키-값 쌍에 대해 작동하고 그 정확성을 확인하여 다중 스레드 환경에서 JUnit의 애플리케이션을 반영하는 테스트가 포함됩니다. .

멀티스레드 환경에서 C++ 메모리 관리의 과제와 대책은? Jun 05, 2024 pm 01:08 PM

다중 스레드 환경에서 C++ 메모리 관리는 데이터 경합, 교착 상태 및 메모리 누수와 같은 문제에 직면합니다. 대책에는 다음이 포함됩니다. 1. 뮤텍스 및 원자 변수와 같은 동기화 메커니즘을 사용합니다. 2. 잠금 없는 데이터 구조를 사용합니다. 3. 스마트 포인터를 사용합니다. 4. (선택 사항) 가비지 수집을 구현합니다.

C++에서 멀티스레드 프로그램을 테스트하기 위한 과제와 전략 May 31, 2024 pm 06:34 PM

다중 스레드 프로그램 테스트는 반복 불가능성, 동시성 오류, 교착 상태 및 가시성 부족과 같은 문제에 직면합니다. 전략은 다음과 같습니다. 단위 테스트: 스레드 동작을 확인하기 위해 각 스레드에 대한 단위 테스트를 작성합니다. 멀티스레드 시뮬레이션: 시뮬레이션 프레임워크를 사용하여 스레드 일정을 제어하여 프로그램을 테스트합니다. 데이터 경합 감지: 도구를 사용하여 valgrind와 같은 잠재적인 데이터 경합을 찾습니다. 디버깅: 디버거(예: gdb)를 사용하여 런타임 프로그램 상태를 검사하고 데이터 경합의 원인을 찾습니다.

See all articles

多线程爬虫批量下载pcgame图片url 保存为xml的实现代码

(.*?)

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제