javascript - 标准的web前端页面流程结构是啥?
巴扎黑
巴扎黑 2017-04-11 09:13:30
[JavaScript讨论组]

web 前端页面的标准,对于爬虫抓取有帮助的是啥啊?

巴扎黑
巴扎黑

全部回复(2)
黄舟

这个是最基本的结构:

<!DOCTYPE html><!--这里不同时期不一致-->
<html>
    <head>
    </head>
    <body>
    </body>
</html>

对于搜索有帮助的,主要集中在head。当然,要看具体的爬虫的功能,比如我爬虫是抓取指定区域的内容,很显然跟head的设置没有任何关系。这里主要说的是搜索引擎的爬虫。

head内几个对于搜索重要的信息:
<title></title>:
<meta name="keywords" content=""/>:
<meta name="description" content=""/>:
当然,标题的重要性是毋庸置疑的。然而,对于keywords,已经在很大程度上呗弱化了,description就更次了。对于搜索排名啥的,目前基本不用考虑,主要是搜索显示。

当然,现在一些社交网站也设置了一些meta标签相关的,这个有类爬虫的功能,也可以关注了解下。

黄舟

楼上说了基本的 HTML 结构。
补充一点,不同的搜索引擎,爬虫的行为会不同。最好去看看各个你比较重视的搜索引擎官方的指南或者白皮书之类的。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号