python - 爬虫获取网站数据,出现乱码怎么解决。
迷茫
迷茫 2017-04-18 10:32:43
[Python讨论组]
#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib2
import re
import HTMLParser

class WALLSTREET:
    def __init__(self, baseUrl):
        self.url = baseUrl
    def get_html_content(self):
        url = self.url
        response = urllib2.urlopen(url)
        str = response.read()
        print str
baseUrl="https://wallstreetcn.com/live/global" #华尔街见文url
ws = WALLSTREET(baseUrl)
ws.get_html_content()

以上是代码,写的很简单,但是print出来的是乱码
尝试了 print str.decode(“utf-8“”)
但是报错
UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: invalid start byte

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全部回复(4)
PHP中文网

str = response.read()这句有两个问题:
1、str是内置关键字必须更改为其他变量名
2、查看网页源代码的编码方式,如果为utf-8在read()后加.decode('utf-8'),若为其他可以相应解码

小建议这种小程序写个函数会比用类来更加方便,无论是使用还是实现

巴扎黑

推测用的是sublime text?
参考这个

伊谢尔伦

这儿应该是encode不是decode,而且你的变量名居然是跟内置关键字名字一样

怪我咯

应该是encode吧

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号