PHP字符串中用正则表达式匹配中文出现乱码-PHP中文网问答

搜索

微信公众号

首页文章专题 AI工具学习编程手册下载最近更新

文章 web3.0 后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具 AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习大前端后端开发数据库移动端运维开发 UI设计计算机基础

编程手册大前端 JavaScript 后端开发数据库移动端运维开发 UI设计计算机基础 XML Web Services

下载 js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

PHP字符串中用正则表达式匹配中文出现乱码

伊谢尔伦 2017-04-10 16:30:13

[PHP讨论组]

723

<?php
echo '<h2>正则表达式匹配中文</h2><br>';
$a = '天地不仁，以万物为刍狗';
$b = preg_replace('/万/','萬',$a);
echo $b;
echo '<h2>加上方括号后替换结果出现乱码</h2><br>';
$c = '天地不仁，以万物为刍狗';
$d = preg_replace('/[万]/','萬',$a);
echo $d;
 ?>

以上程序运行结果可以在http://nyaii.com/s/test.php看到。不知为何，为匹配的中文字符加上方括号后就出现了乱码。同样的情形，在javascript中执行就一切正常。

 '天地不仁'.replace(/[天]/,'')
 //outputs "地不仁"

伊谢尔伦

小伙看你根骨奇佳，潜力无限，来学PHP伐。

全部回复(1)

大家讲道理2017-04-10 16:32:13 1楼

加上UTF8修饰符即可

$d = preg_replace('/[万]/u','萬',$a);

其余修饰符请见
http://php.net/manual/en/reference.pcre.pattern.modifiers.php

以下为对于题主评论中的问题的补充内容

关于为什么[]内就需要加u修饰符的问题，实际上严格来说，两种场合你最好都加上u修饰符

但为什么[]就会导致乱码呢，这就要从字节层面而不是字符层面来解释了。

首先我们知道PHP的字符串并不是Unicode进行存储的，然后我们来看下这个代码

<?php
$a = "万";
echo strlen($a); //3
for ($i = 0; $i < strlen($a); $i++) {
    echo dechex(ord($a[$i])) . ' '; //e4 b8 87
}

我们可以拿到"万"字的utf8十六进制编码是e4b887
所以在没有开启utf8修饰符的时候，正则表达式引擎并没有把"万"当成一个独立的字符，而是三个字节的连续数据。

以下是结论：

当没有[]进行匹配的时候，它寻找的是十六进制编码值为 e4 b8 87 的三个连续字符，换句话说，实际上你的模式是\xe4\xb8\x87，但这种连续字符的出现在你的字符串中，只有"万"字能对上，所以替换了并不会有乱码。但如果你的字符串里面可能还要包括四字节的utf8编码字符，例如emoji，可能就会导致问题了
当你在万外面包装了[]，正则表达式引擎实际上找的是[\xe4\xb8\x87]，懂正则表达式的很快就能发现它实际上是匹配这三个字符的任意一个，所以这个时候就会影响到除了万以外的别的汉字了
当你加了utf8修饰符之后，"万"会被正则表达式当成是一个独立的字符，所以不再会产生这个问题

至于javascript，因为它对字符编码是原生的unicode，每个字符都会被当成一个字符而不是拆分成字节数据，所以不会产生这个问题