/ 注册

php开发
前端

HTML| CSS| JavaScript| Vue.js

后端

PHP| ThinkPHP| Laravel| MySQL| Redis
最新推荐

php8，我来也

84669人学习

细说PHP(2021版)第一季

65727人学习

TP6.0 搭建个人博客实战（玉女心经版）

82984人学习

2018前端入门_HTML5

467778人学习
大前端
原生基础

HTML| CSS| HTML5| CSS3| JavaScript

框架开发

jQuery| Vue.js| React| AngularJS| Node.js| BootStrap| AJAX| Foundation
最新推荐

JavaScript极速入门_玉女心经系列

498837人学习

独孤九贱(1)_HTML5视频教程

471966人学习

CSS视频教程-玉女心经版

256484人学习

30分钟学会网站布局

152542人学习
后端开发
编程语言

PHP| Python| Go| Java| C| C++| C#| VBSscript| Scala| Lua| Perl| Ruby| JSP| XML| ASP

框架/工具

ThinkPHP| Laravel| Servlet| Django| ASP.NET
最新推荐

Thinkphp6.0正式版视频教程

224170人学习

php8，我来也

84669人学习

PHP实战天龙八部之微信支付视频教程

139536人学习

CI框架30分钟极速入门

81804人学习
数据库
基础入门

MySQL| SQL Server

进阶学习

MongoDB| Oracle| Redis| Memcached
最新推荐

MySQL权威开发指南（教程）

85022人学习

Redis基础视频课程

11944人学习

尚观Oracle入门到精通视频教程

20001人学习

PDO操作极速入门,今天你用了吗？

60816人学习
移动端
原生开发

Android| iOS

多端开发

Swift| Flutter| uni-app| 小程序| 其他
最新推荐

你的第一行UNI-APP代码

5487人学习

Uniapp简爱读书项目开发--第一季

15007人学习

公益直播：Uniapp微信小程序1:1仿饿了么首页

2150人学习

Flutter从零到APP上架

6980人学习
运维开发
环境使用

Linux| Docker

工具使用

PhpStudy| Git| 其他工具
最新推荐

phpStudy V8 视频教程

194925人学习

兄弟连新版Linux视频教程

359900人学习

Git教程(60分钟全程无废话版)

1142人学习

vscode其实很简单

19058人学习
UI设计
UI设计

Axure| PS
最新推荐

AXURE 9视频教程(适合产品经理交互产品设计 UI)

3206人学习

零基础精通 PS 视频教程

180550人学习

16天带你入门UI视频教程

48569人学习

PS技法与切片技术视频教程

17603人学习
计算机基础
类库分类

HTTP| TCP/IP| 编程基础
最新推荐

阿里云环境搭建以及项目上线视频教程

40936人学习

计算机网络概述—程序员必须掌握的基础知识

1049人学习

程序员入门必备教程—HTTP协议详解

750人学习

Websocket视频教程

32909人学习

首页 > 后端开发 > Python教程 > 正文

Python使用四种方法实现获取当前页面内所有链接的对比分析

黄舟

发布： 2017-08-20 10:28:38

原创

1852人浏览过

这篇文章主要介绍了python获取当前页面内所有链接的方法,结合实例形式对比分析了python常用的四种获取页面链接的方法,并附带了iframe框架内链接的获取方法,需要的朋友可以参考下

本文实例讲述了Python获取当前页面内所有链接的四种方法。分享给大家供大家参考，具体如下：

&#39;&#39;&#39;
得到当前页面所有连接
&#39;&#39;&#39;
import requests
import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver
url = &#39;http://www.testweb.com&#39;
r = requests.get(url)
r.encoding = &#39;gb2312&#39;
# 利用 re （太黄太暴力！）
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\&#39;).+?(?=\&#39;)" , r.text)
for link in matchs:
  print(link)
print()
# 利用 BeautifulSoup4 （DOM树）
soup = BeautifulSoup(r.text,&#39;lxml&#39;)
for a in soup.find_all(&#39;a&#39;):
  link = a[&#39;href&#39;]
  print(link)
print()
# 利用 lxml.etree （XPath）
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
  print(link)
print()
# 利用selenium（要开浏览器！）
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
  print(link.get_attribute("href"))
driver.close()

登录后复制

注意：若页面中含有 iframe，则 iframe 内所包含页面的所有标签都无法用以上四种方法获得！！！此时则要：

# 再打开所有iframe查找全部的a标签
for iframe in soup.find_all(&#39;iframe&#39;):
  url_ifr = iframe[&#39;src&#39;] # 取得当前iframe的src属性值 
  rr = requests.get(url_ifr)
  rr.encoding = &#39;gb2312&#39;
  soup_ifr = BeautifulSoup(rr.text,&#39;lxml&#39;)
  for a in soup_ifr.find_all(&#39;a&#39;):
    link = a[&#39;href&#39;]
    m = re.match(r&#39;http:\/\/.*?(?=\/)&#39;,link)
    #print(link)
    if m:
      all_urls.add(m.group(0))

登录后复制

以上就是Python使用四种方法实现获取当前页面内所有链接的对比分析的详细内容，更多请关注php中文网其它相关文章！

智能AI问答

PHP中文网智能助手能迅速回答你的编程问题，提供实时的代码和解决方案，帮助你解决各种难题。不仅如此，它还能提供编程资源和学习指导，帮助你快速提升编程技能。无论你是初学者还是专业人士，AI智能助手都能成为你的可靠助手，助力你在编程领域取得更大的成就。

我要提问

相关标签：

python

来源：php中文网

上一篇：Python如何实现爬取需要登录的网站代码实例下一篇：Python中关于numpy灵活定义神经网络结构的实例

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

php实现字符串匹配算法之sunday算法的示例

2023-03-17 20:02:01
php使用指针进行函数操作的实例分析

2023-03-17 19:54:01
php中关于output_buffering的详细介绍

2023-03-17 18:36:01
php中strip_tags()函数的使用注意介绍

2023-03-17 18:34:01
php中strip_tags()只过滤字符串中某一个标签的实例分析

2023-03-17 18:32:02
php中extension_loaded()函数的使用详解

2023-03-17 18:20:01
php中json_encode不支持GB2312编码的解决

2023-03-17 15:02:02
php中json_encode中文UNICODE转码的问题解决

2023-03-17 14:58:02
php中json_encode的使用示例介绍

2023-03-17 14:56:01
php中关于json_encode()函数的详解

2023-03-17 14:54:01

最新问题

子窗口操作父窗口，输出没反应前两句可执行，最后一句没法应

P粉722478067来自于2024-04-19 15:37:47

0

0

45

父窗口没有输出 document.onclick = function(){ window.opener.document.write('我是子窗口的输出'); &nb...

P粉722478067来自于2024-04-18 23:52:34

0

0

60

关于CSS思维导图的课件在哪？课件

凡人来自于2024-04-16 10:10:18

0

0

145

PX自动转换为REM错误 <style>html { font-size: calc(100vw / 3.75); }...

凡人来自于2024-04-16 09:34:16

0

0

911

PHP数组从URL参数中获取的行为不如预期我有一个包含类别ID的URL参数，我想将其视为一个数组，如下所示：http://example.com?cat[]=3,9,13在PHP中，我使用它从URL参数获取数组：$catI...

P粉785905797来自于2024-04-06 22:09:02

0

1

452

通过添加 Width 属性将内容向左移动我已经为主体提供了边距。主要{左边缘：200px;右边距：200px；文本对齐：居中}由于我想以两行而不是一行显示文本，因此我在样式中添加了width属性。.p{字体大小：12px...

P粉738046172来自于2024-04-06 22:01:35

0

2

327

我应该在 apache 中哪里放置 CustomLog 指令我正在使用php:7.2-apachedocker。我需要禁用运行状况检查url登录访问日志。基于此链接，他们提到了有关修改Customlog指令的信息。我不是关于需要更改Cust...

P粉573809727来自于2024-04-06 22:03:59

0

1

451

返回值中变量的格式是什么？我是php的新学习者。我发现有一段代码：if($x<time()){return[false,'error'];}逻辑或变量并不重要，但我不明白[false,'error']...

P粉757556355来自于2024-04-06 21:55:20

0

1

268

页面突然无法拉动 css 或 bootstrap 所以我正在开发一个页面，我昨天做了一部分，效果很好，今天我继续做剩下的部分，一切都很好。当我尝试将其作为普通html页面打开时，CSS或BOOTSTRAP不起作用，仅显示页面文本，...

P粉771233336来自于2024-04-06 21:58:04

0

1

361

如何在 React 中的排序方法上触发渲染（带有过滤器和分页）？这是我的Sort.js样式组件：<SortWrapper><SortText>SortBy</SortText><SortSelecton...

P粉970736384来自于2024-04-06 21:28:37

0

1

1866

相关专题

更多>

热门推荐

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

PHP中文网抖音号: 发现有趣的

Copyright 2014-2024 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

精品班

技术支持

技术咨询

学习群

会员优惠

返回顶部