Node.js抓取中文网页乱码问题和解决方法_node.js
Node.js 抓取非 utf-8 的中文网页时会出现乱码问题,比如网易的首页编码是 gb2312,抓取时会出现乱码
var request = require('request')
var url = 'http://www.163.com'
request(url, function (err, res, body) {
console.log(body)
})
可以使用 iconv-lite 来解决
安装
npm install iconv-lite
同时我们顺带把 user-agent 修改一下,以防网站屏蔽:
var originRequest = require('request')
var iconv = require('iconv-lite')
var headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
}
function request (url, callback) {
var options = {
url: url,
encoding: null,
headers: headers
}
originRequest(options, callback)
}
request(url, function (err, res, body) {
var html = iconv.decode(body, 'gb2312')
console.log(html)
})
乱码问题解决
使用 cheerio 解析 HTML
cheerio 可以简单粗暴的理解为服务器端 jQuery 选择器,有了它,比正则要更加直观许多
安装
npm install cheerio
request(url, function (err, res, body) {
var html = iconv.decode(body, 'gb2312')
var $ = cheerio.load(html)
console.log($('h1').text())
console.log($('h1').html())
})
输出如下
网易
网易
那么问题来了,$('h1').html() 输出的代码是经过 Unicode 编码的,网易变成了网易,给我们的字符处理带来了一些麻烦
解决 cheerio .html() 「乱码」问题
查阅文档可知,可以关闭这个转换实体编码的功能
var $ = cheerio.load(html)
改成
var $ = cheerio.load(html, {decodeEntities: false})
即可,完整代码如下:
var originRequest = require('request')
var cheerio = require('cheerio')
var iconv = require('iconv-lite')
var headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
}
function request (url, callback) {
var options = {
url: url,
encoding: null,
headers: headers
}
originRequest(options, callback)
}
var url = 'http://www.163.com'
request(url, function (err, res, body) {
var html = iconv.decode(body, 'gb2312')
var $ = cheerio.load(html, {decodeEntities: false})
console.log($('h1').text())
console.log($('h1').html())
})

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

公司安全软件导致部分应用无法正常运行的排查与解决方法许多公司为了保障内部网络安全,会部署安全软件。...

CentOS系统下MinIO安装的权限问题及解决方案在CentOS环境部署MinIO时,权限问题是常见难题。本文将介绍几种常见的权限问题及其解决方法,助您顺利完成MinIO安装与配置。修改默认账户及密码:您可以通过设置环境变量MINIO_ROOT_USER和MINIO_ROOT_PASSWORD来修改默认的用户名和密码。修改后,重启MinIO服务即可生效。配置存储桶访问权限:将存储桶设置为公开(public)会导致目录可被遍历,存在安全风险。建议自定义存储桶访问策略。您可以通过MinIO

phpMyAdmin 可用于在 PHP 项目中创建数据库。具体步骤如下:登录 phpMyAdmin,点击“新建”按钮。输入要创建的数据库的名称,注意符合 MySQL 命名规则。设置字符集,如 UTF-8,以避免乱码问题。

Redis内存飙升的原因包括:数据量过大、数据结构选择不当、配置问题(如maxmemory设置过小)、内存泄漏。解决方法有:删除过期数据、使用压缩技术、选择合适的结构、调整配置参数、检查代码是否存在内存泄漏、定期监控内存使用情况。

可以通过以下步骤解决 Navicat 无法连接数据库的问题:检查服务器连接,确保服务器运行、地址和端口正确,防火墙允许连接。验证登录信息,确认用户名、密码和权限正确。检查网络连接,排除网络问题,例如路由器或防火墙故障。禁用 SSL 连接,某些服务器可能不支持。检查数据库版本,确保 Navicat 版本与目标数据库兼容。调整连接超时,对于远程或较慢的连接,增加连接超时时间。其他解决方法,如果上述步骤无效,可以尝试重新启动软件,使用不同的连接驱动程序,或咨询数据库管理员或 Navicat 官方支持。

CentOS下Hadoop分布式文件系统(HDFS)配置常见问题及解决方案在CentOS系统上搭建HadoopHDFS集群时,一些常见的错误配置可能导致性能下降、数据丢失甚至集群无法启动。本文总结了这些常见问题及其解决方法,帮助您避免这些陷阱,确保HDFS集群的稳定性和高效运行。机架感知配置错误:问题:未正确配置机架感知信息,导致数据块副本分布不均,增加网络负载。解决方案:仔细检查hdfs-site.xml文件中的机架感知配置,并使用hdfsdfsadmin-printTopo

Redis内存碎片是指分配的内存中存在无法再分配的小块空闲区域。应对策略包括:重启Redis:彻底清空内存,但会中断服务。优化数据结构:使用更适合Redis的结构,减少内存分配和释放次数。调整配置参数:使用策略淘汰最近最少使用的键值对。使用持久化机制:定期备份数据,重启Redis清理碎片。监控内存使用情况:及时发现问题并采取措施。

VS Code可以在Windows 8上运行,但体验可能不佳。首先确保系统已更新到最新补丁,然后下载与系统架构匹配的VS Code安装包,按照提示安装。安装后,注意某些扩展程序可能与Windows 8不兼容,需要寻找替代扩展或在虚拟机中使用更新的Windows系统。安装必要的扩展,检查是否正常工作。尽管VS Code在Windows 8上可行,但建议升级到更新的Windows系统以获得更好的开发体验和安全保障。
