用PHP&XML编制迷你搜索引擎(一)_PHP
一、认识XML
大家可能对XML还很陌生,我这里不想系统的讲解XML为何许物也,我只是对本文用到的一些概念进行一些介绍,如果您已经使用过XML,哪怕是初学者。您也可以跳过这章。
谈起XML,我不妨先给您一段我们熟悉的html的代码。
(1) html>
(2) title>page title/title>
(3) body>
(4) p>center>font color="red">TEXT/font>/center>/p>
(5) a href="www.yahoo.com">img src="yahoo.gif"/>/a>
(6) /body>
(7) /html>
上面这段代码从结构上就可以符合XML的规则。
他符合下面几个特点
1、引用同一个元素的时候,使用一致的大小写如center>/Center>就是不符合规定的
2、任何属性值(如 href="????")要用"" 扩起来如a href=www.yahoo.com>就是不正确的
3、所有元素必须由打开和关闭>标注组成,元素应该形如body>/body>、或空元素img ... />
请注意结尾的 /> 少了/就是错误的代码
4、所有元素必须彼此嵌套,就像写程序的循环一样,而且,所有的元素必须嵌套于根元素之中如上面的代码所有的内容都嵌套于html>/html>之中。
5、元素名称(即上面的body a p img等)应为字母开头,其实,最好就是一个英文单词,请注意大小写。
怎么样,XML不是太烦吧,你可以理解为他是一个很好的包含数据的树形的结构类型。
好了,大家来熟悉一下我们程序中用到的那个XML吧。
links>网络狂飙之谜你搜索引擎采用PHP和XML技术构建
web memo="memo1" url="">name1/web>
sub>电脑网络
web memo="nemo2">name2/web>
sub>程序设计语言
web memo="memo3">name3/web>
sub>PHP
web url="http://www.phpbuilder.com/" memo="[英文]PHP开发资源。">
www.phpbuilder.com/web>
web url="http://www.fokus.gmd.de" memo="[英文]PHP开发手册。 ">
PHP Manual
其实,它的结构相当简单,根元素就是links,sub代表着一个类别,web就是一个网站的信息,其中包含着属性,url代表网站的联接,memo为备注信息,
在第1行加上 (没有会出错)另存为xyz.xml,用IE5以上的浏览器打开看看。
怎么样,他的树形的结构一览无余。
那么我们的mini的搜索引擎为什么要使用他呢。第一个原因就是我在奥索网还不能使用mysql(真惭愧),其次,对于小数据量的搜索引擎来说,它的数据量很小,如果用数据库来做,效率未必有多高。最重要的一点是,他维护起来相当的简单,减少了人力,并且不用编写繁琐的数据库的维护的程序,例如,我们要添加一个类别或者网页,只要编辑文本的文件,加上一个web>???/web>或是sub>????/sub>就可以了,而且,如果想把一个类别移动到另一个地方的话,我们只要将这一部分的sub,ctrl-x,ctrl-v不就行了(树形结构吗)。
其实,XML的功能我只用到了一点的皮毛,以后,我会奉献给大家更深入的文章。
二、PHP如何解析XML
注:本章的内容借鉴自网易虚拟社区(我懒得敲了),加以修改。
XML解析器的两种基本类型:
基于树型的解析器:将XML文档转换成树型结构。这类解析器分析整篇文章,同时提供一个API来访问所产生树的每个元素。其通用的标准为DOM(文档对象模式)。 使用过Javascript可能用过XMLDOM。
基于事件的解析器:将XML文档视为一系列的事件。当一个特殊事件发生时,解析器将调用开发者提供的函数来处理。
基于事件的解析器有一个XML文档的数据集中视图,也就是说它集中在XML文档的数据部分,而不是其结构。这些解析器从头到尾处理文档,并将类似于-元素的开始、元素的结尾、特征数据的开始等等-事件通过回调(callback)函数报告
给应用程序。以下是一个"Hello-World"的XML文档范例:
greeting>
Hello World
/greeting>
基于事件的解析器将报告为三个事件:
开始元素:greeting
CDATA项的开始,值为:Hello World
结束元素:greeting
不像基于树型的解析器,基于事件的解析器不产生描述文档的结构。在CDATA项中,基于事件的解析器不会让你得到父元素greeting的信息。
然而,它提供一个更底层的访问,这就使得可以更好地利用资源和更快地访问。通过这种方式,就没有必要将整个文档放入内存;而事实上,整个文档甚至可以大于实际内存值。
准备
用于产生XML解析器实例的函数为xml_parser_create()。该实例将用于以后的所有函数。这个思路非常类似于PHP中MySQL函数的连接标记。在解析文档前,基于事件的解析器通常要求你注册回调函数-用于特定的事件发生时调用。Expat没有例外事件,它定义了如下七个可能事件:
对象 XML解析函数 描述
元素 xml_set_element_handler() 元素的开始和结束
字符数据 xml_set_character_data_handler() 字符数据的开始
外部实体 xml_set_external_entity_ref_handler() 外部实体出现
未解析外部实体 xml_set_unparsed_entity_decl_handler() 未解析的外部实体
出现
处理指令 xml_set_processing_instruction_handler() 处理指令的出现
记法声明 xml_set_notation_decl_handler() 记法声明的出现
默认 xml_set_default_handler() 其它没有指定处理函数的事件
所有的回调函数必须将解析器的实例作为其第一个参数(此外还有其它参数)。
更详细的说明可以参见PHP的说明。
下列用来显示 XML 元素结构 (Element Structure)
下面的范例摘自PHP手册范例,
他是我们的搜索引擎的基本结构,但是,我就不加以注释了,因为,我们下一章将会介绍。
$file = "data.xml";
$depth = array();
function startElement($parser, $name, $attrs)
{
global $depth;
for ($i = 0; $i $depth[$parser]; $i++) {
print " ";
}
print "$name
";
$depth[$parser]++;
}
function endElement($parser, $name, $attrs)
{
global $depth;
$depth[$parser]--;
}
$xml_parser = xml_parser_create();
xml_set_element_handler($xml_parser, "startElement", "endElement");
if (!($fp = fopen($file, "r"))) {
die("could not open XML input");
}
while ($data = fread($fp, 4096)) {
if (!xml_parse($xml_parser, $data, feof($fp))) {
die(sprintf("XML error: %s at line %d",
xml_error_string(xml_get_error_code($xml_parser)),
xml_get_current_line_number($xml_parser)));
}
}
xml_parser_free($xml_parser);
?>

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Oracle错误3114详解:如何快速解决,需要具体代码示例在Oracle数据库开发和管理过程中,我们常常会遇到各种各样的错误,其中错误3114是比较常见的一个问题。错误3114通常表示数据库连接出现问题,可能是由于网络故障、数据库服务停止、或者连接字符串设置不正确等原因导致的。本文将详细解释错误3114的产生原因,以及如何快速解决这个问题,并附上具体的代码

Wormhole在区块链互操作性方面处于领先地位,专注于创建有弹性、面向未来的去中心化系统,优先考虑所有权、控制权和无需许可的创新。这一愿景的基础是对技术专业知识、道德原则和社区一致性的承诺,旨在以简单、清晰和广泛的多链解决方案套件重新定义互操作性格局。随着零知识证明、扩容方案和功能丰富的Token标准的兴起,区块链变得更加强大,而互操作性也变得越来越重要。在这个不断创新的应用程序环境中,新颖的治理系统和实用功能为整个网络的资产带来了前所未有的机会。协议构建者现在正在努力思考如何在这个新兴的多链

本教程演示了如何使用PHP有效地处理XML文档。 XML(可扩展的标记语言)是一种用于人类可读性和机器解析的多功能文本标记语言。它通常用于数据存储

【PHP中点的含义和用法解析】在PHP中,中点(.)是一个常用的操作符,用于连接两个字符串或者对象的属性或方法。在本文中,我们将深入探讨PHP中点的含义和用法,并通过具体的代码示例加以说明。1.连接字符串中点操作符.在PHP中最常见的用法是连接两个字符串。通过将.放置在两个字符串之间,可以将它们拼接在一起,形成一个新的字符串。$string1=&qu

使用PHPXML函数处理XML数据:解析XML数据:simplexml_load_file()和simplexml_load_string()加载XML文件或字符串。访问XML数据:利用SimpleXML对象的属性和方法获取元素名称、属性值和子元素。修改XML数据:使用addChild()和addAttribute()方法添加新元素和属性。序列化XML数据:asXML()方法将SimpleXML对象转换为XML字符串。实战案例:解析产品馈送XML,提取产品信息,转换并将其存储到数据库中。

由于篇幅限制,以下是一个简短的文章:Apache2是一种常用的Web服务器软件,而PHP是一种广泛使用的服务器端脚本语言。在搭建网站过程中,有时会遇到Apache2无法正确解析PHP文件的问题,导致PHP代码无法执行。这种问题通常是因为Apache2没有正确配置PHP模块,或者PHP模块与Apache2的版本不兼容导致的。解决这个问题的方法一般有两种,一种是

Win11新功能解析:跳过登录微软账户的方法随着Windows11的发布,许多用户发现其带来了更多的便捷和新功能。然而,有些用户可能不喜欢将其系统与微软账户绑定,希望跳过这一步骤。本文将介绍一些方法,帮助用户在Windows11中跳过登录微软账户,实现更加私密和自主的使用体验。首先,我们来了解一下为什么有些用户不愿意登录微软账户。一方面,一些用户担心他们

谷歌浏览器怎么更换搜索引擎?谷歌浏览器是一款很受用户欢迎的浏览器,它不仅拥有着简单易上手的服务、实用的工具等辅助功能,能够满足不同用户的不同需求,搜索引擎一般都是默认谷歌,如果我们想要更换应该怎么设置呢?下面小编就来分享一下方法吧。 更换方法 1、点击打开Google浏览器。 2、点击三点图标打开菜单界面。 3、点击设置选项可以进入到浏览器的设置界面中。 4、在设置界面找到搜索引擎模块。 5、点击管理搜索引擎按钮。 6、可以看到一个添加按钮,点击这个添加按钮可以添加搜索引擎。
