Nodejs如何处理IE诡异的非英文URL编码
众所周知URL里是不能出现除了英文数字和某些特殊符号外的其他字符的,也不能出现汉字。URL会出现汉字也就4种情况:
-
网址路径(path)中包含汉字:如
https://zh.wikipedia.org/wiki/浏览器
-
Get方法生成包含汉字的URL:一般是由表单生成的,比如
https://zh.wikipedia.org/w/index.php?search=%E6%B5%8F%E8%A7%88%E5%99%A8
-
查询字符串(Query String)包含汉字:比如
https://zh.wikipedia.org/w/index.php?search=浏览器
与第二种不同的是直接在浏览器地址栏输入汉字 -
Ajax调用的URL包含汉字: 比如
<script>url = url + "?q=" +document.getElementById("input").value;</script>
在第一种情况下,各浏览器始终使用UTF-8编码,也就是最后被解析成了 https://zh.wikipedia.org/wiki/%E6%B5%8F%E8%A7%88%E5%99%A8
第二种情况则是根据当前页面编码进行转义,2中的例子用的就是UTF-8
第三种情况就相当诡异了,Chrome和FF都使用UTF-8进行转义,而IE则不是。查了一下,IE用的是操作系统的默认编码,据我所知这个默认编码在不同Windows版本和不同系统语言下都不一样。
第四种情况和第三类似,IE使用系统默认而Chrome和FF使用UTF-8。
于是乎服务器拿到第三和第四种的请求后,根本不知道用的是什么编码。第四种倒容易解决,提前用JavaScript指定编码转义一次就好。但是第三种就...
于是说服务器如何确定在第三种情况发来的发来的查询字符串真正内容?这里用的是Nodejs,可以的话也想听听PHP的解决方案。
试了一个貌似在IE下,用第三种情况搜索Wordpress也会返回404(用错误解码方式的关键词查询数据库没有找到结果)。
=============
突然想到一个点子,能不能从请求header的UA判断是否为IE,如果是再通过Accept-Language来猜测编码...(我开始乱来了....
回复内容:
众所周知URL里是不能出现除了英文数字和某些特殊符号外的其他字符的,也不能出现汉字。URL会出现汉字也就4种情况:
-
网址路径(path)中包含汉字:如
https://zh.wikipedia.org/wiki/浏览器
-
Get方法生成包含汉字的URL:一般是由表单生成的,比如
https://zh.wikipedia.org/w/index.php?search=%E6%B5%8F%E8%A7%88%E5%99%A8
-
查询字符串(Query String)包含汉字:比如
https://zh.wikipedia.org/w/index.php?search=浏览器
与第二种不同的是直接在浏览器地址栏输入汉字 -
Ajax调用的URL包含汉字: 比如
<script>url = url + "?q=" +document.getElementById("input").value;</script>
在第一种情况下,各浏览器始终使用UTF-8编码,也就是最后被解析成了 https://zh.wikipedia.org/wiki/%E6%B5%8F%E8%A7%88%E5%99%A8
第二种情况则是根据当前页面编码进行转义,2中的例子用的就是UTF-8
第三种情况就相当诡异了,Chrome和FF都使用UTF-8进行转义,而IE则不是。查了一下,IE用的是操作系统的默认编码,据我所知这个默认编码在不同Windows版本和不同系统语言下都不一样。
第四种情况和第三类似,IE使用系统默认而Chrome和FF使用UTF-8。
于是乎服务器拿到第三和第四种的请求后,根本不知道用的是什么编码。第四种倒容易解决,提前用JavaScript指定编码转义一次就好。但是第三种就...
于是说服务器如何确定在第三种情况发来的发来的查询字符串真正内容?这里用的是Nodejs,可以的话也想听听PHP的解决方案。
试了一个貌似在IE下,用第三种情况搜索Wordpress也会返回404(用错误解码方式的关键词查询数据库没有找到结果)。
=============
突然想到一个点子,能不能从请求header的UA判断是否为IE,如果是再通过Accept-Language来猜测编码...(我开始乱来了....
这个问题和IE没多大关系...
btw: 你后面提到的 通过Accept-Language来猜测编码
更是不靠谱.
因为这个 请求头是 告诉服务器 浏览器支持什么样的语言(Language)
, 与本次提交时参数的编码没有任何关系.
你遇到的问题, 主要是后端的编码识别的问题.
测试代码:1.html
文档声明内容编码为 utf-8
, 且文件保存编码为 utf-8
.
不管是在IE还是Chrome,Firefox下, 点按钮提交的汉字均为utf-8
编码.
<code> <meta charset="utf-8"> <form action="http://www.baidu.com/s" method="GET"> <input type="text" name="wd" value="浏览器"> <input type="submit"> </form> </code>
2.html
文档声明内容编码为 gb2312
, 且文件保存编码为 gb2312
.
不管是在IE还是Chrome,Firefox下, 点按钮提交的汉字均为gb2312
编码.
<code> <meta charset="gb2312"> <form action="http://www.baidu.com/s" method="GET"> <input type="text" name="wd" value="浏览器"> <input type="submit"> </form> </code>
上面两种编码提交到 www.baidu.com
进行搜索时, 百度均可识别出来正确的汉字.
GB2312
编码时的URL地址: http://www.baidu.com/s?wd=%E4%AF%C0%C0%C6%F7UTF-8
编码时的URL地址: http://www.baidu.com/s?wd=%E6%B5%8F%E8%A7%88%E5%99%A8
认清楚问题之后, 就可以去找正确的答案了:
百度搜索关键字PHP 汉字 编码 识别
(Google被墙,所以只能用百度代替了)
由编码识别遇到问题,思考utf8编码正则表达式(php版本)
将上面的测试代码的action
指向下面这个php
文件.
你会发现不管是 GB2312
编码提交过来的数据, 还是 UTF-8
编码提交过来的数据, 都可以正确显示所提交的汉字.
<code><?php header('Content-Type: text/html; charset=utf-8'); $wd = $_GET['wd']; if(checkUtf8($wd) == 0){ $wd = iconv('gbk', 'utf-8', $wd); } echo $wd; function checkUtf8($str,$extzh=1) { ///utf8编码正则检测函数 ///copyright qq:8292669 ///author 程默 http://www.cnblogs.com/chengmo //gbk,utf8重叠的范围是:[c0-df][a0-bf] 这块字符在utf8中有,在gbk编码没有对应字符因此向gbk转换会出现"?"号 if($extzh==1) { $re='/^([\x01-\x7f]|[\xc0-\xdf][\xa0-\xbf])+$/'; ///这部分字符如果当作utf8处理,在转换为gbk时候就会出现问题"?"号。因此直接返回不为utf8 if(preg_match($re,$str)) ///公共字符验证成功 { return 0; ///不是utf8 } } $re='/^([\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xf7][\x80-\xbf]{3}|[\xf8-\xfb][\x80-\xbf]{4}|[\xfc-\xfd][\x80-\xbf]{5})+$/'; return preg_match($re,$str); } </code></code>
这里是以PHP为例, nodejs
与此类似.

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

PHP和Python各有优势,选择依据项目需求。1.PHP适合web开发,尤其快速开发和维护网站。2.Python适用于数据科学、机器学习和人工智能,语法简洁,适合初学者。

PHP在电子商务、内容管理系统和API开发中广泛应用。1)电子商务:用于购物车功能和支付处理。2)内容管理系统:用于动态内容生成和用户管理。3)API开发:用于RESTfulAPI开发和API安全性。通过性能优化和最佳实践,PHP应用的效率和可维护性得以提升。

PHP是一种广泛应用于服务器端的脚本语言,特别适合web开发。1.PHP可以嵌入HTML,处理HTTP请求和响应,支持多种数据库。2.PHP用于生成动态网页内容,处理表单数据,访问数据库等,具有强大的社区支持和开源资源。3.PHP是解释型语言,执行过程包括词法分析、语法分析、编译和执行。4.PHP可以与MySQL结合用于用户注册系统等高级应用。5.调试PHP时,可使用error_reporting()和var_dump()等函数。6.优化PHP代码可通过缓存机制、优化数据库查询和使用内置函数。7

PHP仍然具有活力,其在现代编程领域中依然占据重要地位。1)PHP的简单易学和强大社区支持使其在Web开发中广泛应用;2)其灵活性和稳定性使其在处理Web表单、数据库操作和文件处理等方面表现出色;3)PHP不断进化和优化,适用于初学者和经验丰富的开发者。

PHP和Python各有优势,选择应基于项目需求。1.PHP适合web开发,语法简单,执行效率高。2.Python适用于数据科学和机器学习,语法简洁,库丰富。

PHP和Python各有优劣,选择取决于项目需求和个人偏好。1.PHP适合快速开发和维护大型Web应用。2.Python在数据科学和机器学习领域占据主导地位。

PHP适合web开发,特别是在快速开发和处理动态内容方面表现出色,但不擅长数据科学和企业级应用。与Python相比,PHP在web开发中更具优势,但在数据科学领域不如Python;与Java相比,PHP在企业级应用中表现较差,但在web开发中更灵活;与JavaScript相比,PHP在后端开发中更简洁,但在前端开发中不如JavaScript。

PHP主要是过程式编程,但也支持面向对象编程(OOP);Python支持多种范式,包括OOP、函数式和过程式编程。PHP适合web开发,Python适用于多种应用,如数据分析和机器学习。
