扫码关注官方订阅号
我用scrapy写了一个爬取网站的代码,但是返回的是unicode的字符串,怎样获得原来的中文呢??
学习是最好的投资!
首先: 第一个概念:unicode:这个是python的内建函数,位于unicode类。 unicode(string [, encoding[, errors]]) -> object,这个函数的作用是将string按照encoding的格式编码成为unicode对象。省略参数将用python默认的ASCII来解码 第二个概念:在python中,编码:unicode-->str;解码str-->unicode.既然是编码,那么就和密码领域一样,编码和解码自然涉及到编码/解码方案(对应加密或者解密算法),unicode相当于明文。在python中,编码函数是encode(),解码函数是decode()。 所以假设你要转换成gbk的话,gbkstring=unicodestring.encode("gbk") ,其他的类似。
可以参考这篇文章:scrapy中文编码问题
其实,如果你将爬下来的内容保存为.json格式的话,再用json解析工具解析一下就好了,当然我也是scrapy初学者,建议仅供参考。:)
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
首先:
第一个概念:unicode:这个是python的内建函数,位于unicode类。
unicode(string [, encoding[, errors]]) -> object,这个函数的作用是将string按照encoding的格式编码成为unicode对象。省略参数将用python默认的ASCII来解码
第二个概念:在python中,编码:unicode-->str;解码str-->unicode.既然是编码,那么就和密码领域一样,编码和解码自然涉及到编码/解码方案(对应加密或者解密算法),unicode相当于明文。在python中,编码函数是encode(),解码函数是decode()。
所以假设你要转换成gbk的话,gbkstring=unicodestring.encode("gbk") ,其他的类似。
可以参考这篇文章:scrapy中文编码问题
其实,如果你将爬下来的内容保存为.json格式的话,再用json解析工具解析一下就好了,当然我也是scrapy初学者,建议仅供参考。:)