正则表达式 - Python 3.5 如何对中文字符串进行处理?-PHP中文网问答

微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程

正则表达式 - Python 3.5 如何对中文字符串进行处理?

高洛峰 2017-04-17 17:35:18

[Python讨论组]

512

python初学者，写一个简单的爬虫程序，在处理标题的时候遇到的问题
按照网文的写法，好像应该先

txt = "大家好我叫123abc"
str1 = txt.decode('gb2312')
str2 = str1.encode('utf-8')

但是编译结果显示
AttributeError: 'str' object has no attribute 'decode'
查过文档后也没有关于decode的定义

请问大家，在这个版本的Python中，对于中英数字混杂的字符串怎样处理？

高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。网络人气名人讲师，...

全部回复(9)

天蓬老师2017-04-17 17:37:18 9楼

str 类型只有 encode 方法， bytes 类型只有 decode 方法。
爬虫爬下来的文本假设为 txt
试一试 txt.decode('utf-8') 或者 txt.decode('gb2312')

赞 +0

添加回复

大家讲道理2017-04-17 17:37:18 8楼

首先需要encode 才能decode

赞 +0

添加回复

天蓬老师2017-04-17 17:37:18 7楼

bytes(str, 'gb2312')

赞 +0

添加回复

怪我咯2017-04-17 17:37:18 6楼

Python 3.5 字符串都是 Unicode 格式。

https://segmentfault.com/a/1190000004613...
https://segmentfault.com/a/1190000004625...

赞 +0

添加回复

ringa_lee2017-04-17 17:37:18 5楼

爬虫得到的应该是bytes型的吧，直接建立的变量是str型的了。bytes类型的通过decode转换成str类型进行处理，然后输出的话再通过encode转换成bytes类型。

赞 +0

添加回复

天蓬老师2017-04-17 17:37:18 4楼

字符串有encode方法，使用txt.encode("utf_8")将字符串编码为byte类型，byte有decode方法，可以将byte解码。如：txt.encode("utf_8")--> b'\xe5\xa4\xa7\xe5\xae\xb6\xe5\xa5\xbd\xe6\x88\x91\xe5\x8f\xab123abc'，之后再使用decode，可以重新获得文本"大家好我叫123abc"。

赞 +0

添加回复

黄舟2017-04-17 17:37:18 3楼

处理的目的是什么？中英文混杂也只是普通字符串，不需要特殊处理。
Python3的普通字符串是str类型，实际上就是Python2的unicode类型。
要真正理解清楚这个问题，需要看一看字符编码的知识，理解unicode编码方式和实现方式的关系。
粗略的说，Python3使用的str类型并不关心你最终是什么编码，是gb2312还是utf-8，它只是用unicode的字符集编码来表示每一个字符，直到输出到文件流，需要转换为bytes类型时，才用encode指定具体的编码实现方式。

在Python3里，str --encode--> bytes --decode--> str

赞 +0

添加回复