网页爬虫 - Python+Selenium+PhantomJs爬虫,如何取得新打开页面的源码?
高洛峰
高洛峰 2017-04-18 10:21:55
[Python讨论组]

我在做一个python爬虫,使用了selenium库和phantomjs浏览器。我在一个网页中触发了一个click事件打开了一个新的网页,然后我用browser.page_source得到的却是原来那个网页非新打开网页的源码,请问我该如何取得新打开页面的源码呢?

高洛峰
高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...

全部回复(2)
黄舟

如果链接打开了一个新标签页的话,你的driver还是下默认使用的还是当前窗口,

Alternatively, you can pass a “window handle” to the “switch_to_window()” method. Knowing this, it’s possible to iterate over every open window like so:

for handle in driver.window_handles:
    driver.switch_to_window(handle)

比如,如果你的浏览器有几个标签页,那么window_handles就保存了对应这几个标签页对应的实例对象,所以如果你当前只打开了一个网页,那么你新打开的页面就是 window_handles[1]
转换到那个页面后,再获取源码。

天蓬老师

如果是在当前窗口打开,有可能因为新页面还没有加载完成,到时拿不到新页面的url和数据,这里可以使用等待,并设置一些条件,确保新页面加载完成再进行操作,代码如下:

from selenium.webdriver.support.ui import WebDriverWait
# 等待新页面生成
WebDriverWait(self.browser, 5).until(
    expected_conditions.presence_of_element_located((By.ID, "username")
    )
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号