/ 注册

php开发
前端

HTML| CSS| JavaScript| Vue.js

后端

PHP| ThinkPHP| Laravel| MySQL| Redis
最新推荐

php8，我来也

84669人学习

细说PHP(2021版)第一季

65727人学习

TP6.0 搭建个人博客实战（玉女心经版）

82984人学习

2018前端入门_HTML5

467778人学习
大前端
原生基础

HTML| CSS| HTML5| CSS3| JavaScript

框架开发

jQuery| Vue.js| React| AngularJS| Node.js| BootStrap| AJAX| Foundation
最新推荐

JavaScript极速入门_玉女心经系列

498837人学习

独孤九贱(1)_HTML5视频教程

471966人学习

CSS视频教程-玉女心经版

256484人学习

30分钟学会网站布局

152542人学习
后端开发
编程语言

PHP| Python| Go| Java| C| C++| C#| VBSscript| Scala| Lua| Perl| Ruby| JSP| XML| ASP

框架/工具

ThinkPHP| Laravel| Servlet| Django| ASP.NET
最新推荐

Thinkphp6.0正式版视频教程

224170人学习

php8，我来也

84669人学习

PHP实战天龙八部之微信支付视频教程

139536人学习

CI框架30分钟极速入门

81804人学习
数据库
基础入门

MySQL| SQL Server

进阶学习

MongoDB| Oracle| Redis| Memcached
最新推荐

MySQL权威开发指南（教程）

85022人学习

Redis基础视频课程

11944人学习

尚观Oracle入门到精通视频教程

20001人学习

PDO操作极速入门,今天你用了吗？

60816人学习
移动端
原生开发

Android| iOS

多端开发

Swift| Flutter| uni-app| 小程序| 其他
最新推荐

你的第一行UNI-APP代码

5487人学习

Uniapp简爱读书项目开发--第一季

15007人学习

公益直播：Uniapp微信小程序1:1仿饿了么首页

2150人学习

Flutter从零到APP上架

6980人学习
运维开发
环境使用

Linux| Docker

工具使用

PhpStudy| Git| 其他工具
最新推荐

phpStudy V8 视频教程

194925人学习

兄弟连新版Linux视频教程

359900人学习

Git教程(60分钟全程无废话版)

1142人学习

vscode其实很简单

19058人学习
UI设计
UI设计

Axure| PS
最新推荐

AXURE 9视频教程(适合产品经理交互产品设计 UI)

3206人学习

零基础精通 PS 视频教程

180550人学习

16天带你入门UI视频教程

48569人学习

PS技法与切片技术视频教程

17603人学习
计算机基础
类库分类

HTTP| TCP/IP| 编程基础
最新推荐

阿里云环境搭建以及项目上线视频教程

40936人学习

计算机网络概述—程序员必须掌握的基础知识

1049人学习

程序员入门必备教程—HTTP协议详解

750人学习

Websocket视频教程

32909人学习

首页 > 后端开发 > Python教程 > 正文

基于Python3.4实现简单抓取爬虫功能详细介绍

巴扎黑

发布： 2017-09-16 10:16:36

原创

1385人浏览过

这篇文章主要介绍了python3.4编程实现简单抓取爬虫功能,涉及python3.4网页抓取及正则解析相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python3.4编程实现简单抓取爬虫功能。分享给大家供大家参考，具体如下：

import urllib.request
import urllib.parse
import re
import urllib.request,urllib.parse,http.cookiejar
import time
def getHtml(url):
  cj=http.cookiejar.CookieJar()
  opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
  opener.addheaders=[(&#39;User-Agent&#39;,&#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36&#39;),(&#39;Cookie&#39;,&#39;4564564564564564565646540&#39;)]
  urllib.request.install_opener(opener)
  page = urllib.request.urlopen(url)
  html = page.read()
  return html
#print ( html)
#html = getHtml("http://weibo.com/")
def getimg(html):
  html = html.decode(&#39;utf-8&#39;)
  reg=&#39;"screen_name":"(.*?)"&#39;
  imgre = re.compile(reg)
  src=re.findall(imgre,html)
  return src
#print ("",getimg(html))
uid=[&#39;2808675432&#39;,&#39;3888405676&#39;,&#39;2628551531&#39;,&#39;2808587400&#39;]
for a in list(uid):
  print (getimg(getHtml("http://weibo.com/"+a)))
  time.sleep(1)

登录后复制

以上就是基于Python3.4实现简单抓取爬虫功能详细介绍的详细内容，更多请关注php中文网其它相关文章！

智能AI问答

PHP中文网智能助手能迅速回答你的编程问题，提供实时的代码和解决方案，帮助你解决各种难题。不仅如此，它还能提供编程资源和学习指导，帮助你快速提升编程技能。无论你是初学者还是专业人士，AI智能助手都能成为你的可靠助手，助力你在编程领域取得更大的成就。

我要提问

来源：php中文网

上一篇：总结有关python实现八大排序算法（上）下一篇：Python开发MapReduce系列之WordCount Demo

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

关于培训教程的10篇课程推荐

2023-05-18 06:09:01
Laravel中日期时间处理包Carbon

2023-03-16 11:52:01
PHP的远程多会话调试

2023-03-16 11:50:02
laravel实现分页样式替换

2023-03-16 11:48:01
介绍Laravel中Facade的加载过程与原理

2023-03-16 11:46:01
laravel5.4利用163邮箱发送邮件

2023-03-16 11:44:01
有关PHP在同一域名下两个不同的项目做独立登录机制的方法介绍

2023-03-16 11:42:02
php生成毫秒时间戳

2023-03-16 11:40:02
PHP权限管理功能实现方法

2023-03-16 11:38:02
php mysql PDO 查询操作实例介绍

2023-03-16 11:36:01

最新问题

子窗口操作父窗口，输出没反应前两句可执行，最后一句没法应

P粉722478067来自于2024-04-19 15:37:47

0

0

19

父窗口没有输出 document.onclick = function(){ window.opener.document.write('我是子窗口的输出'); &nb...

P粉722478067来自于2024-04-18 23:52:34

0

0

40

关于CSS思维导图的课件在哪？课件

凡人来自于2024-04-16 10:10:18

0

0

129

PX自动转换为REM错误 <style>html { font-size: calc(100vw / 3.75); }...

凡人来自于2024-04-16 09:34:16

0

0

766

PHP数组从URL参数中获取的行为不如预期我有一个包含类别ID的URL参数，我想将其视为一个数组，如下所示：http://example.com?cat[]=3,9,13在PHP中，我使用它从URL参数获取数组：$catI...

P粉785905797来自于2024-04-06 22:09:02

0

1

438

通过添加 Width 属性将内容向左移动我已经为主体提供了边距。主要{左边缘：200px;右边距：200px；文本对齐：居中}由于我想以两行而不是一行显示文本，因此我在样式中添加了width属性。.p{字体大小：12px...

P粉738046172来自于2024-04-06 22:01:35

0

2

317

我应该在 apache 中哪里放置 CustomLog 指令我正在使用php:7.2-apachedocker。我需要禁用运行状况检查url登录访问日志。基于此链接，他们提到了有关修改Customlog指令的信息。我不是关于需要更改Cust...

P粉573809727来自于2024-04-06 22:03:59

0

1

442

返回值中变量的格式是什么？我是php的新学习者。我发现有一段代码：if($x<time()){return[false,'error'];}逻辑或变量并不重要，但我不明白[false,'error']...

P粉757556355来自于2024-04-06 21:55:20

0

1

266

页面突然无法拉动 css 或 bootstrap 所以我正在开发一个页面，我昨天做了一部分，效果很好，今天我继续做剩下的部分，一切都很好。当我尝试将其作为普通html页面打开时，CSS或BOOTSTRAP不起作用，仅显示页面文本，...

P粉771233336来自于2024-04-06 21:58:04

0

1

357

如何在 React 中的排序方法上触发渲染（带有过滤器和分页）？这是我的Sort.js样式组件：<SortWrapper><SortText>SortBy</SortText><SortSelecton...

P粉970736384来自于2024-04-06 21:28:37

0

1

1863

相关专题

更多>

热门推荐

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

PHP中文网抖音号: 发现有趣的

Copyright 2014-2024 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

精品班

技术支持

技术咨询

学习群

会员优惠

返回顶部