网页爬虫 - python爬取网页的时候，某些字符丢失-PHP中文网问答

微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程

网页爬虫 - python爬取网页的时候，某些字符丢失

巴扎黑 2017-04-18 09:46:43

[Python讨论组]

664

在爬取
http://www.jyeoo.com/chinese/...
这个网页的内容的时候，我使用beautifulSoup解析网页内容

head = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}
    r = urllib2.Request('http://www.jyeoo.com/chinese/ques/detail/798530b2-05b0-4c11-9434-bb3f50c4c6f4',headers=head)
    html = urllib2.urlopen(r)
    soup = BeautifulSoup(html,'html5lib')
    print soup.prettify()

这样打印出来的网页内容与原网页相比，某些字符丢失了！！这是原网页的html，注意其中的文字

这是我爬取的html，在同一个地方，我的截图如下：

可以发现，中文字符部分丢失了一些字，但是在页面的其他部分，就没有丢失，比如

不知道是什么原因，有知道的大神还请帮忙解答一下！！！！多谢

巴扎黑

全部回复(1)

怪我咯2017-04-18 09:48:43 1楼

不要用bs4解析

用re正则来取得内容

还请大神指教，请问您之前遇到过类似的情况吗，这是什么原因造成的呢

@天凉好个秋

网页用js来防复制，为了避免禁用js，内容里的某些字是由js来补全的。
所以，要有运行js的工具

试了几次，好像丢失内容有点随机性的~

多读取几次就正常了~

python3

import re, requests as req

url = r'http://www.jyeoo.com/chinese/ques/detail/798530b2-05b0-4c11-9434-bb3f50c4c6f4'
rsp = req.get(url)
html = rsp.text
fldsptn = re.compile(r'<fieldset.*?</fieldset>',re.S)
flds = fldsptn.findall(html)
print(flds[0])

赞 +0

添加回复

专题推荐

更多>

热门话题

热门教程

更多>