首页 >后端开发 >Golang > 正文

golang写爬虫乱码怎么办

原创2020-02-15 09:52:4001120

golang写爬虫乱码怎么办

在用golang编写爬虫程序时,会碰见编码格式gb2312的页面。

网页页面上可以看出该页面字符编码为gb2312

<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

而golang默认是支持UTF-8编码格式的,这样直接爬下来的结果会乱码。

解决方法:

使用 github.com/axgle/mahonia 这个包可以完成编码转换、

1、执行 go get github.com/axgle/mahonia 命令下载此包后,在%gopath%/src目录下会生产

github.com\axgle\mahonia

2、代码使用方法

1)导入包

import "github.com/axgle/mahonia"

2)转换函数

func ConvertToString(src string, srcCode string, tagCode string) string {
    srcCoder := mahonia.NewDecoder(srcCode)
    srcResult := srcCoder.ConvertString(src)
    tagCoder := mahonia.NewDecoder(tagCode)
    _, cdata, _ := tagCoder.Translate([]byte(srcResult), true)
    result := string(cdata)
    return result
}

3)在需要字符串转换编码的位置调用此函数

result = ConvertToString(html, "gbk", "utf-8")

更多golang知识请关注PHP中文网golang教程栏目。

以上就是golang写爬虫乱码怎么办的详细内容,更多请关注php中文网其它相关文章!

php中文网最新课程二维码
  • 相关标签:golang 爬虫 乱码
  • 本文原创发布php中文网,转载请注明出处,感谢您的尊重!
  • 相关文章

    相关视频


    网友评论

    文明上网理性发言,请遵守 新闻评论服务协议

    我要评论
  • golang嵌入的解决法:首先使用命令“git clone https://github.com/axgle/mahonia.git”引入第三方转包;然后修改代为“ackage main import
    java避免文件的方法:使用OutputStreamWriter()方法入文件,在OutputStreamWriter中可以通过指定编方式来完成gbk文件的读
    PHP编socket错误信息的解决法:首先对错误信息编进行检查,代为【mb_detect_encoding(socket_last_error($socket)】;然后将错误信息转为【UTF
    PHP用fwrite入文件中文的解决法:1、用【mb_detect_encoding()】函数获取内容编方式;2、用【mb_convert_encoding()】函数将内容编方式转换为【UTF

    专题推荐

    推荐视频教程
  • MongoDB 教程MongoDB 教程
  • Go语言教程手册Go语言教程手册
  • Django 教程Django 教程
  • Google地图中文API手册Google地图中文API手册
  • 视频教程分类