utf-8 - 关于mysql乱码的纠结
阿神
阿神 2017-04-17 13:56:26
[MySQL讨论组]

在win命令行中操作mysql,命令行是gbk编码
mysql数据库的默认编码是Latin1
如果我在客户端set names utf8; 创建的表为gbk,存储中文肯定就出现乱码了(给一个占仨字节的,gbk表存储不了)
而我将表创建为utf8,在客户端set names gbk,存储中文则不会出现乱码(给一个占俩字节的,utf8依然能够存储)
到这里还没什么问题,但是····
我创建一张不声明字符集的表,在客户端set names latin1,存储中文也不会出现乱码(客户端、转换器、服务器编码一致),这里依然可以理解
① 如果说Latin1是单字节编码,为什么我用length(字段),测试的结果是一个中文是两个字节呢?
② 如果说Latin1中文也占一个字节,那么我创建的表不声明字符集,在客户端也不声明字符集,这样会字节丢失、造成乱码,可它偏偏占两个字节;那我就不明白了,为什么创建的表不声明字符集,在客户端也不声明字符集、gbk和Latin1都可以存中文,且占两个字节,这种情况依然会乱码呢

ps:感谢几位的回答,不过我纠结的是我提出的问题,而不是应该怎样···呵呵

阿神
阿神

闭关修行中......

全部回复(3)
ringa_lee

对于问题1,看后面
对于问题2,我之前说了不声明字符集不等于没有设置字符集,mysql是有默认字符集这个东西的

你的问题归纳起来无非就是latin-1保存的中文是两个字节,对不对?
问题是你怎么知道这件事的呢?程序员很重要的一点就是要客观的去看待问题,而不是主观的论断。

1- 从计算机的角度考虑,它知道什么是英文什么是中文吗?所以一个字节就是一个字节
2- 不同编码导致了中文的长度不同,如GBK是2字节,UTF-8是3字节
3- 你录入的中文是所你使用的电脑对其编码的,你看到的中文是你所使用的电脑对其解码的,mysql仅仅是存储,事实上那边根本不关心这个问题,就是按字节存储。

所以为什么latin-1保存的中文是两个字节呢?因为你发送给mysql的就是两字节,那边就这么存了,mysql也从来没有表示过这两个字节代表什么。

关于乱码,不好解释,做个不太恰当的描述吧。
为了区别,我们将计算机能处理的字符编码称为 机器码 ,那么显示给人的时候要进行某种处理,从而现在有utf-8, gbk, latin-1等方式。
那么如果mysql认为字符是latin-1,但是输出端认为字符集是gbk,那么什么事情会发生呢?
mysql将数据用latin-1解码,恢复成 机器码 的格式,然后用gbk对机器码编码输出
这就是乱码的根源,明明是gbk,你偏要告诉mysql是latin-1,然后输出的时候mysql自然会按照latin-1的解码方式去解码gbk格式的数据,还能对吗?

PHPz

原则上,所有的地方都要用utf8,不要自己瞎搞,事儿多。

迷茫

楼上说的没错,要让使用utf8成为习惯。另外,git bash、msys 等常用工具的

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号