博主信息
Laical
博文
9
粉丝
0
评论
0
访问量
2393
积分:0
P豆:142

百度新闻正确采集方式

2021年06月25日 16:33:38阅读数:446博客 / Laical

如果要抓取新闻数据,必须要确定要抓取的新闻目标网站。国内有许多新闻网站,大大小小有几千家新闻网站。百度就收录差不多两千多个新闻网站。其实我们可以先采集百度新闻。
百度新闻就是一个新闻聚集网页,里面有许多新闻的标题和链接。我们只需要通过百度新闻提取新闻的数据下载

通过这个流程,我们可以做个简单的爬虫代码:
使用requests下载百度新闻首页,提取标题,也就是网页中的链接,然后提取新闻链接,然后下载新闻链接保存到数据库。
` #! -- encoding:utf-8 --

  1. import requests
  2. import random
  3. # 要访问的目标页面
  4. targetUrl = "http://httpbin.org/ip"
  5. # 要访问的目标HTTPS页面
  6. # targetUrl = "https://httpbin.org/ip"
  7. # 代理服务器(产品官网 www.16yun.cn)
  8. proxyHost = "t.16yun.cn"
  9. proxyPort = "31111"
  10. # 代理验证信息
  11. proxyUser = "username"
  12. proxyPass = "password"
  13. proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
  14. "host" : proxyHost,
  15. "port" : proxyPort,
  16. "user" : proxyUser,
  17. "pass" : proxyPass,
  18. }
  19. # 设置 http和https访问都是用HTTP代理
  20. proxies = {
  21. "http" : proxyMeta,
  22. "https" : proxyMeta,
  23. }
  24. # 设置IP切换头
  25. tunnel = random.randint(1,10000)
  26. headers = {"Proxy-Tunnel": str(tunnel)}
  27. resp = requests.get(targetUrl, proxies=proxies, headers=headers)
  28. print resp.status_code
  29. print resp.text`

版权申明:本博文版权归博主所有,转载请注明地址!如有侵权、违法,请联系admin@php.cn举报处理!

全部评论

文明上网理性发言,请遵守新闻评论服务协议

条评论