自己对爬虫的理解 - PHP - php中文网博客

博主信息

博文 49

粉丝 1

访问量 53433

专题推荐

更多>

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

自己对爬虫的理解

Nick的博客

原创

1784人浏览过

第一次接触爬虫后，自己对爬虫的理解;

爬虫：就是抓取网页数据，模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上只要是浏览器或者客户端能做的，爬虫都能做。

利用网页三大特征进行爬虫：

第一：URL进行定位（锁定爬虫的目标）；

第二：网页的源码（HTML+CSS+JavaScript）;

第三：网页的传输协议（HTTP或HTTPS）.

确定好爬虫目标就可以开始使用PHP中file();file_get_contents();curl()等函数方法进行爬虫的设定。

其中curl_setopt()函数方法可以对爬虫的数据获取进行设置，从而获取所需的数据（设置也是数据的筛选），此函数方法还可以进行模拟浏览器对服务器发出的post请求，因此获得Header区域内容。

批改状态：未批改

老师批语：

本博文版权归博主所有，转载请注明地址！如有侵权、违法，请联系admin@php.cn举报处理！

全部评论文明上网理性发言，请遵守新闻评论服务协议

0条评论

作者最新博文