python - scrapy抓取内容保存为中文问题
大家讲道理
大家讲道理 2017-04-17 16:07:03
[Python讨论组]

爬虫的编写:

# -*- coding: utf-8 -*-
#encoding=utf-8
import scrapy
from maizi.items import MaiziItem
reload(__import__('sys')).setdefaultencoding('utf-8') 

class MaimaiSpider(scrapy.Spider):
    name = "maimai"
    allowed_domains = ["http://www.zaobao.com/news/china/"]
    start_urls = (
        'http://www.zaobao.com/news/china//',
    )

    def parse(self, response):
        
        for li in response.xpath('//*[@id="l_title"]/ul/li'):
            item = MaiziItem()
            item['title'] = li.xpath('a[1]/p/text()').extract()
            item['link']=li.xpath('a[1]/@href').extract()
            item['desc'] = li.xpath('a[2]/p/text()').extract()
            
            yield item#返回项目

item的定义:

import scrapy


class MaiziItem(scrapy.Item):
    title = scrapy.Field()
    link=scrapy.Field()
    desc =scrapy.Field()

爬虫结果输出:
是中文乱码,请问怎么改。

大家讲道理
大家讲道理

光阴似箭催人老,日月如移越少年。

全部回复(3)
天蓬老师

Xls默认字符集好像是本地字符集 对中文也就是gbk的

迷茫

试试加上:

import sys
reload(sys)
sys.setdefaultencoding('UTF-8')

这几乎是Python中文乱码的万能解决方案。

ringa_lee

这个是保存到xls了吗?你可以先print试试什么类型的

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号