博主信息
Laical
博文
11
粉丝
0
评论
0
访问量
6495
积分:0
P豆:30

爬虫代理中的反向代理和正向代理的概念

2020年07月14日 17:31:09阅读数:226博客 / Laical/ 网络爬虫教程

正向代理和反向代理的概念
无论是正向代理,还是反向代理,说到底,就是代理模式的衍生版本罢了。我们都学习过代理设计模式,都知道代理模式中有代理角色和被代理角色,为什么这么说,因为这两个角色对于我们理解正向和反向代理非常重要
正向代理
意思是一个位于客户端和原始服务器(origin server)之间的服务器,为了从原始服务器取得内容,客户端向代理发送一个请求并指定目标(原始服务器),
然后代理向原始服务器转交请求并将获得的内容返回给客户端。
反向代理
反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,
然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,
简单来说就是真实的服务器不能直接被外部网络访问,想要访问必须通过代理。

为什么要使用反向代理?
反向代理的主要作用是分发请求。
反向代理可以用来隐藏服务器,对于用户来说,他们访问的是反向代理,然后由反向代理通过防火墙与真正的服务器进行通讯,这样真正的服务器对于用户来说是透明的
反向代理还可以用来进行负载均衡,当大量用户进行访问的时候,访问的是反向代理,然后由隐藏在后面的某一个服务器进行真正的数据处理,每一次处理的服务器不一定是哪个,从而实现负载均衡
python爬虫使用代理代码demo

  1. #! -*- encoding:utf-8 -*-
  2. import requests
  3. import random
  4. # 要访问的目标页面
  5. targetUrl = "http://httpbin.org/ip"
  6. # 要访问的目标HTTPS页面
  7. # targetUrl = "https://httpbin.org/ip"
  8. # 代理服务器(产品官网 www.16yun.cn)
  9. proxyHost = "t.16yun.cn"
  10. proxyPort = "31111"
  11. # 代理验证信息
  12. proxyUser = "username"
  13. proxyPass = "password"
  14. proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
  15. "host" : proxyHost,
  16. "port" : proxyPort,
  17. "user" : proxyUser,
  18. "pass" : proxyPass,
  19. }
  20. # 设置 http和https访问都是用HTTP代理
  21. proxies = {
  22. "http" : proxyMeta,
  23. "https" : proxyMeta,
  24. }
  25. # 设置IP切换头
  26. tunnel = random.randint(1,10000)
  27. headers = {"Proxy-Tunnel": str(tunnel)}
  28. resp = requests.get(targetUrl, proxies=proxies, headers=headers)
  29. print resp.status_code
  30. print resp.text

爬虫程序需要使用到爬虫代理ip 时,尽量选择高匿亿牛云代理。

全部评论

文明上网理性发言,请遵守新闻评论服务协议

条评论
  • Swoole不能替ApacheNginx这些通用HTTP服务器。
    是一个位于客户端原始服务器之间服务器,客户端发送一个请求并指定目标(原始服务器),然后原始服务器转交请求并将获得内容返回给客户端。
    首先安装texlive,以管员身份运行install-tl-windows,进行安装。然后安装vscode上Latex插件,将配置码放入vscode设置区
    Nginx是俄罗斯人Igor Sysoev编写十分轻量级HTTP服务器,Nginx,它发音为“engine X”,是一个高性能HTTP服务器,同时也是一个IMAP/POP3/SMTP服务器
    服务器环境有lighttpd、apacheNginx。Lighttpd是众多OpenSource轻量级web server较为优秀一个。Nginx是一个高性能HTTP服务器。
    nginxswoole区别:Nginx (engine x) 是一个高性能HTTPweb服务器,同时也提供了IMAP/POP3/SMTP服务。
    Nginx特点在教程可以看到:处静态文件,索引文件以及自动索引;无缓存加速,简单负载均衡容错;FastCGI,简单负载均衡容错;支持SSLTLSSNI。
    在计算机性能指标所指Pentium是奔腾处器。奔腾处器是Intel公司在1992年10月发布第五微处器系列,该产品在1993年3月式推市场。
    Apache想要入门一定要了解它功能特性,如:高度模块化、支持动态加载卸载模块、支持多路处模块MPM、虚拟主机、CGI通用网关接口、支持、可以实现负载均衡等功能特性。
    nginx配置方法是:1、首先进入nginx主配置文件;2、在http模块server块location /增加默认网址;3、执行【nginx -s reload】命令重新加载。
    php处高并发问题方法是:1、应用静态资源分离;2、页面缓存,将应用生成页面缓存起来以节省大量CPU资源;3、集群分布式;4、,客户端从别服务器获取资源,然后将结果返回给用户。
    nginx特点有:1、高扩展性;2、高可靠性;3、低内存消耗;4、高并发;5、热部署;6、开源协议。nginx是异步架构web服务器,也可以用作、负载均衡器HTTP缓存。
    计算机所采用电子元器件是“大规模超大规模集成电路”;硬件方面,逻辑元件采用大规模超大规模集成电路;软件方面出现了数据库管系统、网络管系统对象语言等。
    开发者通常以码质量来定义。在软件行业,写好码意味着在在测试,更新,扩展或者修复漏洞省钱。
    swoolerabbitmq区别:RabbitMQ是实现了高级消息队列协议(AMQP)开源消息软件(亦称面消息间件)。