python爬虫中,使用HTMLParser如何解析获取多个标签中的文本
迷茫
迷茫 2017-04-17 17:33:43
[Python讨论组]

使用python进行网络爬虫编写时,如何使用HTMLParser解析获取到html文档中多个标签中的文本:
例如:
<a标签>text1
<span标签>text2</span标签>
text3
<span标签>text4</span标签>
text5
</a标签>
使用handle_data函数进行处理时,只能获取到标签中的文本,即text1,text2,text4,
其他两个text3和text5无法获取。

求大师们指教!

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全部回复(1)
怪我咯
from HTMLParser import *


class MyParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.links = []
        self.flag = 0

    def handle_data(self, data):
        data = data.strip()
        if data and self.flag:
            print "handle_data", data

    def handle_starttag(self, tag, attrs):
        self.flag = 0

    def handle_endtag(self, tag):
        tag = tag.strip()
        if tag == "span标签":
            self.flag = 1

handle_starttag每遇见一个以"<"开始的tag回调一次,handle_endtag每遇见一个"</"标识的结束时回调一次,你的text3和text5位于结束标记之后,因此要自己手动用flag标记下,然后在handle_data里处理对应的数据

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号