网页爬虫 - python 爬虫转码
PHPz
PHPz 2017-04-17 13:46:23
[Python讨论组]

我用scrapy写了一个爬取网站的代码,但是返回的是unicode的字符串,怎样获得原来的中文呢??

PHPz
PHPz

学习是最好的投资!

全部回复(2)
黄舟

首先:
第一个概念:unicode:这个是python的内建函数,位于unicode类。
unicode(string [, encoding[, errors]]) -> object,这个函数的作用是将string按照encoding的格式编码成为unicode对象。省略参数将用python默认的ASCII来解码
第二个概念:在python中,编码:unicode-->str;解码str-->unicode.既然是编码,那么就和密码领域一样,编码和解码自然涉及到编码/解码方案(对应加密或者解密算法),unicode相当于明文。在python中,编码函数是encode(),解码函数是decode()。
所以假设你要转换成gbk的话,gbkstring=unicodestring.encode("gbk") ,其他的类似。

大家讲道理

可以参考这篇文章:scrapy中文编码问题

其实,如果你将爬下来的内容保存为.json格式的话,再用json解析工具解析一下就好了,当然我也是scrapy初学者,建议仅供参考。:)

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号