Python:使用BeautifulSoup提取锚文本
天蓬老师
天蓬老师 2017-04-17 13:08:02
[Python讨论组]

超链接如下:

<a target="_blank" href="http://www.baidu.com"><span id="video_hl">国际足球</span>巴西世界杯</a>

现在,我想提取锚文本:国际足球巴西世界杯
现在的方法:

a = """<a target="_blank" href="http://www.baidu.com"><span id="video_hl">国际足球</span>巴西世界杯</a>"""
    soup = BeautifulSoup("".join(a))
    print soup.contents[0].string

结果输出None,我知道问题出在标签a中还包含其他的标签(span),从而导致出错,不知道怎么实现呢?

天蓬老师
天蓬老师

欢迎选择我的课程,让我们一起见证您的进步~~

全部回复(2)
PHPz
from bs4 import BeautifulSoup

html = '<a target="_blank" href="http://www.baidu.com"><span id="video_hl">国际足球</span>巴西世界杯</a>'
soup = BeautifulSoup(html)
print(soup.select('a')[0].text)
迷茫

解决办法:

    a = """<a target="_blank" href="http://www.baidu.com"><span id="video_hl">国际足球</span>巴西世界杯</a>"""
    soup = BeautifulSoup("".join(a))
    print soup.text

注:要使用bs4版本

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号