docker - python3 字符串，字节流的编码问题-PHP中文网问答

微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

docker - python3 字符串，字节流的编码问题

迷茫 2017-04-17 12:58:58

[Python讨论组]

609

正在做网页爬虫，得到许多注入下列变量code的字符，想尝试将他们转换为utf-8的string输出到文件里，转换不成功，问题如下。

#Python 3.4.0
#coding:utf-8
import os

code = '\xe8\xb1\x86\xe7\x93\xa3'

bytes = code.encode(encoding='utf-8')

douban = str(bytes.decode('utf-8'))

#print(str(bytes.decode('utf-8')))

file_object = open('test.txt', 'w')
file_object.write(douban)
file_object.close()

迷茫

业精于勤，荒于嬉;行成于思，毁于随。

全部回复(3)

巴扎黑2017-04-17 13:00:58 3楼

首先，我觉得你需要认识这么几个概念：
1. unicode：在本文中表示用4byte表示的unicode编码，也是python内部使用的字符串编码方式。
2. utf-8：在本文中只最少1byte表示的unicode编码方式。

其次，你需要知道decode和encode之间的关系。

encode：从unicode编码为指定编码方式。

例如：string.encode("utf-8")。表示string从unicode编码方式编码为utf-8编码方式。
前提：string必须是unicode的编码方式，不然会出错。
decode：从指定编码方式解码为unicode方式。

例如：string.decode("utf-8")。表示string从utf-8编码方式解码为unicode编码方式。
前提：string必须是utf-8(你指定的编码方式），不然会出错。

可以看出，在python中，所有格式的中间编码方式就是unicode，需要从编码A转换为编码B，只需要string.decode("A").encode("B")就可以了。

有了上面的知识储备再回到你的问题。

你的code = '\xe8\xb1\x86\xe7\x93\xa3'根据我的经验看起来就是utf-8的编码方式（因为我看到的utf-8编码都是\xFF这种样式，但是我不确定这两者之间的绝对关系），所以这块应该使用u_code = code.decode("utf-8")来使得code解码为unicode，再将其编码为你需要的编码方式（例如gb18030）。

而，你的需求中写到，你希望写入文件的是utf-8的编码格式，所以你可以直接file_object.write(code)。这样你文件中的内容就是utf-8编码的。

如果你拿到一个字符串，你不知道他的编码方式，可以试试chardet，他会给出字符串的编码格式，和信赖度。可以作为你的参考。

文中有任何问题请联系我，欢迎指出问题。

赞 +0

添加回复

ringa_lee2017-04-17 13:00:58 2楼

已经是utf-8了编码一次又解码一次做了跟没做有什么区别？

#coding:utf-8
import os

code = b'\xe8\xb1\x86\xe7\x93\xa3'
code = code.decode('utf-8')
file_object = open('test.txt', 'w', encoding="utf-8")
file_object.write(code)
file_object.close()

赞 +0

添加回复