python - 关于代码的优化问题
ringa_lee
ringa_lee 2017-04-18 10:29:11
[Python讨论组]

我新手写的代码,用来处理爬虫下来的htm文件内容,虽然解决问题,但是会有遗漏文件不处理。爬虫是爬一些文章的网站下来的,和网页另存为没什么区别。

想大神们帮我看看我的代码,怎么优化不会有遗漏。比较小白的代码,麻烦了!!!

# -*- coding: utf-8 -*
import re
import glob

filename_list = glob.glob('*.html')

for i in filename_list:
    txt = ""
    with open(i, "r") as htmfile:
        txt = htmfile.read()
    scdy = r"<hr[\s\S]*?<hr"
    onedotxt = re.findall(scdy, txt)
    if onedotxt:
        r = onedotxt[0]
    twotxt=re.sub('<[^>]*>', '', r) 
    threetxt=re.sub('<hr', '', twotxt)
    fourtxt=re.sub('&#8217;', '', threetxt)
    fivetxt=re.sub('&#8221;', '"', fourtxt)
    sixtxt=re.sub('&#8220;', '"', fivetxt)
    
    endstr=re.sub('&#8211;', '-', sixtxt)
    name = endstr.split('\n')[1]
    with open(name+".txt", "w") as wf:
            wf.write(endstr)
ringa_lee
ringa_lee

ringa_lee

全部回复(1)
PHP中文网

filename_list = glob.glob('.html') + glob.glob('.htm')

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号