PHP:preg_replace_callback匹配中文的问题
PHP中文网
PHP中文网 2017-04-10 14:42:57
[PHP讨论组]

代码:

$html = preg_replace_callback("/(?<chinese>[\x{4e00}-\x{9fa5}]+)/u",array("self","wyc_chinese"),$html);
...
省略
...
public function wyc_chinese($matches)
{       
    return $matches['chinese'].'(Chinese)';
}

问题:
$html为要提取的网页数据
如果$html是utf8编码的,则以上代码能正常执行(即能正常提取中文),但如果是其他编码的,则没法正常执行(无法匹配到汉字)
使用iconv转换$html的编码格式,也无法正常提取中文。

PHP中文网
PHP中文网

认证0级讲师

全部回复(2)
ringa_lee

<meta charset="utf-8">来识别编码是错误的.有些网页没有写meta,对于现代浏览器也会正常显示的(IE6有问题,IE7,IE8没测~)
应该根据HTTP响应头Content-Type: text/html; charset=UTF-8来判断.如果没有返回charset,就根据内容来自行判断了..
为了方便,最好将html转换为UTF-8来进行正则匹配.

<?php
//编辑器的编码格式为UTF-8(无BOM)

$remote_url = 'http://segmentfault.com/q/1010000000450422';

$context = stream_context_create([
    'http' => [
        'method' => 'GET',
    ],
]);
$html = file_get_contents($remote_url, false, $context);

$html_encoding = mb_detect_encoding($html, ['UTF-8', 'CP936', 'ASCII']);

//转换为UTF-8
$target_encoding = 'UTF-8';
$html = $target_encoding === $html_encoding ? $html : mb_convert_encoding($html, $target_encoding, $html_encoding);

//匹配
$count = preg_match_all('#[\x{4e00}-\x{9fa5}]+#u', $html, $matches);

var_dump($matches);
高洛峰

你这问题的核心是网页编码转换成UTF-8

你说源编码是"根据meta标签的charset字段来判断的"

我也是这样子做的, 不过我成功.

你没给出详尽代码,我不知道是你的代码哪里出错了,还是纯粹是我的人品比你好.

require_once(__DIR__.'/wp-config.php');
$resp = wp_remote_get('http://51nb.com/');
$html = $resp['body'];
preg_match('@charset=([-a-z0-9_]+)@i',$html,$charset);
$html = iconv(strtoupper($charset[1]), "UTF-8", $html);
preg_match_all("@\p{Han}+@u",$html,$m);     
echo '<meta charset="UTF-8" />';
print_r($m);
exit;

使用以上代码的iconv

不使用以上代码的iconv

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号