网页抓取：PHP实现网页爬虫方式小结，抓取爬虫-php手册-PHP中文网

网页抓取：PHP实现网页爬虫方式小结，抓取爬虫

php网络爬虫实现采集某个网站的部分内容

爬虫抓取网页关键字、摘要以供搜索

首页

php教程

php手册

网页抓取：PHP实现网页爬虫方式小结，抓取爬虫

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 13, 2016 am 09:21 AM

http php 实现抓取方式来源爬虫网页

网页抓取：PHP实现网页爬虫方式小结，抓取爬虫

来源：http://www.ido321.com/1158.html

抓取某一个网页中的内容，需要对DOM树进行解析，找到指定节点后，再抓取我们需要的内容，过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式，如果熟悉JQuery选择器，这几种框架会相当简单。

一、Ganon

项目地址： http://code.google.com/p/ganon/

文档： http://code.google.com/p/ganon/w/list

测试:抓取我的网站首页所有class属性值是focus的div元素，并且输出class值

<span><?php
 <span>include</span> <span>'ganon.php'</span>;
 $html = file_get_dom(<span>'http://www.ido321.com/'</span>);
 <span>foreach</span>($html(<span>'div[class="focus"]'</span>) <span>as</span> $element) {
   <span>echo</span> $element-><span>class</span>, <span>"<br>\n"</span>; 
 }
?></span>

登录后复制

结果:

二、phpQuery

项目地址：http://code.google.com/p/phpquery/

文档：https://code.google.com/p/phpquery/wiki/Manual

测试：抓取我网站首页的article标签元素，然后出书其下h2标签的html值

<span><?php
<span>include</span> <span>'phpQuery/phpQuery.php'</span>; 
phpQuery::newDocumentFile(<span>'http://www.ido321.com/'</span>); 
$artlist = pq(<span>"article"</span>); 
<span>foreach</span>($artlist <span>as</span> $title){ 
   <span>echo</span> pq($title)->find(<span>'h2'</span>)->html().<span>"<br/>"</span>; 
} 
?></span>

登录后复制

结果：

三、Simple-Html-Dom

项目地址： http://simplehtmldom.sourceforge.net/
文档： http://simplehtmldom.sourceforge.net/manual.htm

测试：抓取我网站首页的所有链接

<span><?php
<span>include</span> <span>'simple_html_dom.php'</span>;
<span>//使用url和file都可以创建DOM</span>
$html = file_get_html(<span>'http://www.ido321.com/'</span>);

<span>//找到所有图片</span>
<span>// foreach($html->find('img') as $element)</span>
<span>//        echo $element->src . '<br>';</span>

<span>//找到所有链接</span>
<span>foreach</span>($html->find(<span>'a'</span>) <span>as</span> $element)
       <span>echo</span> $element->href . <span>'<br>'</span>; 
?></span>

登录后复制

结果：（截图是一部分）

四、Snoopy

项目地址：http://code.google.com/p/phpquery/

文档：http://code.google.com/p/phpquery/wiki/Manual

测试：抓取我的网站首页

<span><?php
<span>include</span>(<span>"Snoopy.class.php"</span>);
$url = <span>"http://www.ido321.com"</span>;
$snoopy = <span>new</span> Snoopy;
$snoopy->fetch($url); <span>//获取所有内容</span>
 <span>echo</span> $snoopy->results; <span>//显示结果</span>
<span>// echo $snoopy->fetchtext ;//获取文本内容（去掉html代码）</span>
<span>// echo $snoopy->fetchlinks($url) ;//获取链接</span>
<span>// $snoopy->fetchform ;//获取表单 </span>
?></span>

登录后复制

结果：

五、手动编写爬虫

如果编写能力ok，可以手写一个网页爬虫，实现网页抓取。网上有千篇一律的介绍此方法的文章，LZ就不赘述了。有兴趣了解的，可以百度 php 网页抓取。

ps：资源分享

常见的开源爬虫项目请戳：http://blog.chinaunix.net/uid-22414998-id-3774291.html

下一篇：国民岳父的“屁民理论”

php网络爬虫实现采集某个网站的部分内容

楼主，你可以使用simpl_html_dom 这个类来采集，具体怎么使用，如果你会jquery的话，相信你看一下就懂了。祝你好运。

爬虫抓取网页关键字、摘要以供搜索

strip_tags($string)

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1677

CakePHP 教程

1431

Laravel 教程

1334

PHP教程

1280

C# 教程

1257

显示更多

Related knowledge

继续使用PHP：耐力的原因 Apr 19, 2025 am 12:23 AM

PHP仍然流行的原因是其易用性、灵活性和强大的生态系统。1)易用性和简单语法使其成为初学者的首选。2)与web开发紧密结合，处理HTTP请求和数据库交互出色。3)庞大的生态系统提供了丰富的工具和库。4)活跃的社区和开源性质使其适应新需求和技术趋势。

如果session_start（）被多次调用会发生什么？ Apr 25, 2025 am 12:06 AM

多次调用session_start()会导致警告信息和可能的数据覆盖。1)PHP会发出警告，提示session已启动。2)可能导致session数据意外覆盖。3)使用session_status()检查session状态，避免重复调用。

IIS和PHP的兼容性：深度潜水 Apr 22, 2025 am 12:01 AM

IIS和PHP可以兼容，通过FastCGI实现。1.IIS通过配置文件将.php文件请求转发给FastCGI模块。2.FastCGI模块启动PHP进程处理请求，提高性能和稳定性。3.实际应用中需注意配置细节、错误调试和性能优化。

session_start（）函数的意义是什么？ May 03, 2025 am 12:18 AM

session_start（）iscucialinphpformanagingusersessions.1）ItInitiateSanewsessionifnoneexists，2）resumesanexistingsessions，and3）setsasesessionCookieforContinuityActinuityAccontinuityAcconActInityAcconActInityAcconAccRequests，EnablingApplicationsApplicationsLikeUseAppericationLikeUseAthenticationalticationaltication and PersersonalizedContentent。

作曲家：通过AI的帮助开发PHP Apr 29, 2025 am 12:27 AM

AI可以帮助优化Composer的使用，具体方法包括：1.依赖管理优化：AI分析依赖关系，建议最佳版本组合，减少冲突。2.自动化代码生成：AI生成符合最佳实践的composer.json文件。3.代码质量提升：AI检测潜在问题，提供优化建议，提高代码质量。这些方法通过机器学习和自然语言处理技术实现，帮助开发者提高效率和代码质量。