博主信息
Laical
博文
11
粉丝
0
评论
0
访问量
6493
积分:0
P豆:30

网络爬虫的规则

2020年07月27日 17:35:22阅读数:181博客 / Laical/ 网络爬虫教程

1.网络爬虫:自动从互联网中定向(有目标、过滤无关信息)或不定向(随机)地采集信息的一种程序。常用的类型有:通用网络爬虫(不定向)、聚焦网络爬虫(定向设置过滤规则)。
2.网络爬虫的应用:①搜索引擎②采集金融数据③采集商品数据④自动过滤广告⑤采集竞争对手的客户数据⑥采集行业相关数据,进行数据分析……
3.网络爬虫的运行原理
(1)通用网络爬虫:
①获取初始URL;②爬取页面并获取新的URL;③将爬取的内容放到服务器中,将新URL放入URL队列;④读取新URL,重复②③④;⑤直到满足停止条件结束。
(2)聚焦网络爬虫:
①对抓取目标进行相应的定义或描述;②获取初始URL;③爬取页面并获得新的URL;④将爬取的内容放到服务器中,过滤无关链接后,将新URL放入URL队列中;⑤确定下一步抓取目标,重复①②③④⑤;⑥直到满足停止条件结束。
限制网络爬虫
• 对服务器性能的骚扰问题
• 内容层面的法律风险问题
• 个人隐私泄露问题
因此,我们说网络爬虫的使用是要有它的规则。在实际的使用中,一些较大的网站都对网络爬虫有相关的限制。那么针对这些网站应该做出那些相应的策略:
1 使用代理亿牛云代理
适用情况:大部分网站均限制了IP的访问量
对于“频繁点击”的情况,我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。

  1. #! -*- encoding:utf-8 -*-
  2. import requests
  3. import random
  4. # 要访问的目标页面
  5. targetUrl = "http://httpbin.org/ip"
  6. # 要访问的目标HTTPS页面
  7. # targetUrl = "https://httpbin.org/ip"
  8. # 代理服务器(产品官网 www.16yun.cn)
  9. proxyHost = "t.16yun.cn"
  10. proxyPort = "31111"
  11. # 代理隧道验证信息
  12. proxyUser = "username"
  13. proxyPass = "password"
  14. proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
  15. "host" : proxyHost,
  16. "port" : proxyPort,
  17. "user" : proxyUser,
  18. "pass" : proxyPass,
  19. }
  20. # 设置 http和https访问都是用HTTP代理
  21. proxies = {
  22. "http" : proxyMeta,
  23. "https" : proxyMeta,
  24. }
  25. # 设置IP切换头
  26. tunnel = random.randint(1,10000)
  27. headers = {"Proxy-Tunnel": str(tunnel)}
  28. resp = requests.get(targetUrl, proxies=proxies, headers=headers)
  29. print resp.status_code
  30. print resp.text

2 伪装成浏览器,或者反“反盗链”
有些网站会检查你是不是真的浏览器访问,还是机器自动访问的。这种情况,加上User-Agent,表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法,一般再加上Referer。
User-Agent可以用亿牛云代理提供给的真实库,Referer的来源可以伪装成百度搜索来的。
headers = {‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73 Safari/537.36’, ‘Referer’:’https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'}
response = requests.get(url=url, headers=headers)
使用网络爬虫采集数据,需要高质量亿牛云爬虫代理才能更加高效稳定的采集出想要的数据。

全部评论

文明上网理性发言,请遵守新闻评论服务协议

条评论
  • 技术是指按照一定,自动地抓取万维信息技术。又称为页蜘蛛、机器人,在FOAF社区中间,更经常称为页追逐者;另外一些不常使用名字还有蚂蚁、自动索引、模拟程序或者蠕
    协议”是数据交换而建立协议指是计算机中互相通信对等实体之间交换信息时所必须遵守集合,而对等实体通常是指计算机体系结构中处于相同层次信息单元。
    数据意思是:通过程序来获取需要站上内容信息,比如文字、视频、图片等数据。页蜘蛛)是一种按照一定,自动抓取万维信息程序或者脚本。
    Python是用Python编程语言实现,主要用于数据抓取和处理,相比于其他语言,Python是一门非常适合开发编程语言,大量内置包,可以轻松实现功能。
    php框架有:phpspider(一个开发框架)、Beanbun(用PHP编写多进程框架)、PHPCrawl(一个PHP开源Web检索蜘蛛类库)。
    (又被称为页蜘蛛,机器人,在FOAF社区中间,更经常称为页追逐者),是一种按照一定,自动地抓取万维信息程序或者脚本。下面我们一起来了解一下。
    不用java要用Python原因:1、Java实现代码要比Python多很多,而且实现相对复杂一些;2、Java对于相关库也有,但是没有Python那么多。
    iso划分层次基本原有:1、中各结点都具有相同层次;2、不同结点同等层具有相同功能;3、不同结点同等层通过协议来实现对等层之间通信;4、同一结点内相邻层之间通过接口通信;5、每个层可以使用下层提供服务
    Python不是一款软件,Python而是一种解释型、面向对象、动态数据类型高级程序设计语言,其主要用于开发Web站、桌面界面开发、、人工智能、自动化运维、数据分析、机器学习等。
    python在实际工作中应用有:1、自动化测试,编写简单实现脚本,实现自动化;2、站开发,借助django,flask框架搭建自己站;3、自动化运维,自动处理大量运维任务;4、获取处理大量信息
    计算机协议主要包括资源子、通信子和通信协议等三个方面。计算机协议是有关计算机通信一整套,或者说是为完成计算机通信而制定、约定和标准。
    SQL杀手蠕病毒发作特征是:大量消耗带宽。sql杀手蠕病毒不具有破坏文件、数据能力,主要影响就是大量消耗带宽资源,使得瘫痪。
    不同语言都有自己特定应用领域,Python在、人工智能、等等领域拥有很大优势。而PHP就是为web而生,且PHP开发效率高、开发成本更低,所以自然成了一个不错选择!
    IP是英文Internet Protocol缩写,意思是“之间互连协议”,也就是为计算机相互连接进行通信而设计协议;在因特中,它是能使连接到所有计算机实现相互通信一套
    这篇文章主要介绍了PHP主要方法,主要是获取整个页,然后正匹配,需要朋友可以参考下。
    解决“不能建立到远程计算机连接”问题办法:首先重新插入宽带;然后打开和共享中心,找到Windows防火墙;接着点击入站,并新建且选择端口;最后输入特定本地端口即可。
    ​防火墙主要由服务访问、验证工具、包过滤和应用关四个部分组成。防火墙技术功能主要在于及时发现并处理计算机运行时可能存在安全风险、数据传输等问题,以确保计算机运行安全性。
    修改centos下hosts方法是:1、执行【vim /etc/hosts】命令打开hosts文件;2、追加我们需要设定;3、执行【/etc/init.d/network restart】命令重启
    Protocol为进行数据交换而建立、标准或约定。用于不同系统中实体间通信。本文就来为大家介绍一下redis通信协议protocol。
    宿主主机访问虚拟机中docker服务方法:1、进入docker服务所在虚拟机;2、依次点击【设置】、【】,选择NAT卡;3、点击【高级】,选择【端口转发】;4、添加端口转发