백엔드 개발 PHP 튜토리얼 用PHP&XML编制迷你搜索引擎(一)_PHP

用PHP&XML编制迷你搜索引擎(一)_PHP

Jun 01, 2016 pm 12:35 PM
xml 요소 검색 엔진 분석하다 미니

一、认识XML

大家可能对XML还很陌生我这里不想系统的讲解XML为何许物也我只是对本文用到的一些概念进行一些介绍如果您已经使用过XML哪怕是初学者。您也可以跳过这章。

谈起XML
我不妨先给您一段我们熟悉的html的代码。

(1) html>

(2) title>page title/title>

(3) body>

(4) p>center>font color="red">TEXT/font>/center>/p>

(5) a href="www.yahoo.com">img src="yahoo.gif"/>/a>

(6) /body>

(7) /html>

上面这段代码从结构上就可以符合XML的规则。
他符合下面几个特点

1、引用同一个元素的时候
使用一致的大小写如center>/Center>就是不符合规定的

2、任何属性值
(如 href="????")要用"" 扩起来如a href=www.yahoo.com>就是不正确的

3、所有元素必须由打开
和关闭>标注组成元素应该形如body>/body>、或空元素img ... />

请注意结尾的
/> 少了/就是错误的代码

4、所有元素必须彼此嵌套
就像写程序的循环一样而且所有的元素必须嵌套于根元素之中如上面的代码所有的内容都嵌套于html>/html>之中。

5、元素名称
(即上面的body a p img等)应为字母开头其实最好就是一个英文单词请注意大小写。



怎么样
XML不是太烦吧你可以理解为他是一个很好的包含数据的树形的结构类型。

好了
大家来熟悉一下我们程序中用到的那个XML吧。



links>网络狂飙之谜你搜索引擎采用PHP和XML技术构建

web memo="memo1" url="">name1/web>

sub>电脑网络

web memo="nemo2">name2/web>

sub>程序设计语言

web memo="memo3">name3/web>

sub>PHP

web url="http://www.phpbuilder.com/" memo="[英文]PHP开发资源。">

www.phpbuilder.com/web>

web url="http://www.fokus.gmd.de" memo="[英文]PHP开发手册。 ">

PHP Manual













其实,它的结构相当简单,根元素就是links,sub代表着一个类别,web就是一个网站的信息,其中包含着属性,url代表网站的联接,memo为备注信息,????中包含的为元素的数据在这里就是类别和网站的名称。请注意,他可是符合我上面的规定的。

在第1行加上
(没有会出错)另存为xyz.xml用IE5以上的浏览器打开看看。

怎么样
他的树形的结构一览无余。

那么我们的mini的搜索引擎为什么要使用他呢。第一个原因就是我在奥索网还不能使用mysql
(真惭愧)其次对于小数据量的搜索引擎来说它的数据量很小如果用数据库来做效率未必有多高。最重要的一点是他维护起来相当的简单减少了人力并且不用编写繁琐的数据库的维护的程序例如我们要添加一个类别或者网页只要编辑文本的文件加上一个web>???/web>或是sub>????/sub>就可以了而且如果想把一个类别移动到另一个地方的话我们只要将这一部分的subctrl-x,ctrl-v不就行了树形结构吗

其实
XML的功能我只用到了一点的皮毛以后我会奉献给大家更深入的文章。



二、PHP如何解析XML

本章的内容借鉴自网易虚拟社区我懒得敲了加以修改。

XML解析器的两种基本类型




基于树型的解析器
将XML文档转换成树型结构。这类解析器分析整篇文章同时提供一个API来访问所产生树的每个元素。其通用的标准为DOM文档对象模式。 使用过Javascript可能用过XMLDOM。



基于事件的解析器
将XML文档视为一系列的事件。当一个特殊事件发生时解析器将调用开发者提供的函数来处理。

基于事件的解析器有一个XML文档的数据集中视图
也就是说它集中在XML文档的数据部分而不是其结构。这些解析器从头到尾处理文档并将类似于元素的开始、元素的结尾、特征数据的开始等等事件通过回调callback函数报告

给应用程序。以下是一个
"Hello-World"的XML文档范例



greeting>

Hello World

/greeting>



基于事件的解析器将报告为三个事件




开始元素
greeting

CDATA项的开始
值为Hello World

结束元素
greeting

不像基于树型的解析器
基于事件的解析器不产生描述文档的结构。在CDATA项中基于事件的解析器不会让你得到父元素greeting的信息。

然而
它提供一个更底层的访问这就使得可以更好地利用资源和更快地访问。通过这种方式就没有必要将整个文档放入内存而事实上整个文档甚至可以大于实际内存值。



准备



用于产生XML解析器实例的函数为xml_parser_create
()。该实例将用于以后的所有函数。这个思路非常类似于PHP中MySQL函数的连接标记。在解析文档前基于事件的解析器通常要求你注册回调函数用于特定的事件发生时调用。Expat没有例外事件它定义了如下七个可能事件





对象 XML解析函数 描述



元素 xml_set_element_handler
() 元素的开始和结束



字符数据 xml_set_character_data_handler
() 字符数据的开始



外部实体 xml_set_external_entity_ref_handler
() 外部实体出现



未解析外部实体 xml_set_unparsed_entity_decl_handler
() 未解析的外部实体

出现



处理指令 xml_set_processing_instruction_handler
() 处理指令的出现



记法声明 xml_set_notation_decl_handler
() 记法声明的出现



默认 xml_set_default_handler
() 其它没有指定处理函数的事件



所有的回调函数必须将解析器的实例作为其第一个参数
此外还有其它参数



更详细的说明可以参见PHP的说明。



下列用来显示 XML 元素结构
(Element Structure)





下面的范例摘自PHP手册范例


他是我们的搜索引擎的基本结构
但是我就不加以注释了因为我们下一章将会介绍。


$file
= "data.xml";

$depth
= array();



function startElement($parser, $name, $attrs)

{

global $depth;

for ($i = 0; $i $depth[$parser]; $i++) {

print " ";

}

print "$name

"
;

$depth
[$parser]++;

}



function endElement($parser, $name, $attrs)

{

global $depth;

$depth
[$parser]--;

}



$xml_parser
= xml_parser_create();

xml_set_element_handler
($xml_parser, "startElement", "endElement");

if (!($fp = fopen($file, "r"))) {

die("could not open XML input");

}

while ($data = fread($fp, 4096)) {

if (!xml_parse($xml_parser, $data, feof($fp))) {

die(sprintf("XML error: %s at line %d",

xml_error_string
(xml_get_error_code($xml_parser)),

xml_get_current_line_number
($xml_parser)));

}

}

xml_parser_free
($xml_parser);

?>

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Oracle 오류 3114에 대한 자세한 설명: 신속하게 해결하는 방법 Oracle 오류 3114에 대한 자세한 설명: 신속하게 해결하는 방법 Mar 08, 2024 pm 02:42 PM

Oracle 오류 3114에 대한 자세한 설명: 이를 신속하게 해결하는 방법, 구체적인 코드 예제가 필요합니다. Oracle 데이터베이스를 개발 및 관리하는 동안 다양한 오류가 발생하는 경우가 많으며 그중 오류 3114는 비교적 일반적인 문제입니다. 오류 3114는 일반적으로 네트워크 오류, 데이터베이스 서비스 중지 또는 잘못된 연결 문자열 설정으로 인해 발생할 수 있는 데이터베이스 연결 문제를 나타냅니다. 이 문서에서는 오류 3114의 원인과 이 문제를 신속하게 해결하는 방법을 자세히 설명하고 특정 코드를 첨부합니다.

웜홀 NTT 구문 분석: 모든 토큰을 위한 개방형 프레임워크 웜홀 NTT 구문 분석: 모든 토큰을 위한 개방형 프레임워크 Mar 05, 2024 pm 12:46 PM

Wormhole은 블록체인 상호 운용성의 선두주자로서 소유권, 통제 및 무허가형 혁신을 우선시하는 탄력적이고 미래 지향적인 분산 시스템을 만드는 데 중점을 두고 있습니다. 이 비전의 기초는 단순성, 명확성 및 광범위한 다중 체인 솔루션 제품군으로 상호 운용성 환경을 재정의하기 위한 기술 전문 지식, 윤리적 원칙 및 커뮤니티 조정에 대한 헌신입니다. 영지식 증명, 확장 솔루션 및 풍부한 기능의 토큰 표준이 등장하면서 블록체인은 더욱 강력해지고 상호 운용성은 점점 더 중요해지고 있습니다. 이 혁신적인 애플리케이션 환경에서 새로운 거버넌스 시스템과 실용적인 기능은 네트워크 전반의 자산에 전례 없는 기회를 제공합니다. 프로토콜 빌더는 이제 이 새로운 멀티체인에서 어떻게 기능할지 고민하고 있습니다.

PHP에서 HTML/XML을 어떻게 구문 분석하고 처리합니까? PHP에서 HTML/XML을 어떻게 구문 분석하고 처리합니까? Feb 07, 2025 am 11:57 AM

이 튜토리얼은 PHP를 사용하여 XML 문서를 효율적으로 처리하는 방법을 보여줍니다. XML (Extensible Markup Language)은 인간의 가독성과 기계 구문 분석을 위해 설계된 다목적 텍스트 기반 마크 업 언어입니다. 일반적으로 데이터 저장 AN에 사용됩니다

PHP 함수를 사용하여 XML 데이터를 처리하는 방법은 무엇입니까? PHP 함수를 사용하여 XML 데이터를 처리하는 방법은 무엇입니까? May 05, 2024 am 09:15 AM

PHPXML 함수를 사용하여 XML 데이터 처리: XML 데이터 구문 분석: simplexml_load_file() 및 simplexml_load_string()은 XML 파일 또는 문자열을 로드합니다. XML 데이터에 액세스: SimpleXML 개체의 속성과 메서드를 사용하여 요소 이름, 속성 값 및 하위 요소를 가져옵니다. XML 데이터 수정: addChild() 및 addAttribute() 메서드를 사용하여 새 요소와 속성을 추가합니다. 직렬화된 XML 데이터: asXML() 메서드는 SimpleXML 객체를 XML 문자열로 변환합니다. 실제 예: 제품 피드 XML을 구문 분석하고, 제품 정보를 추출하고, 변환하여 데이터베이스에 저장합니다.

PHP에서 중간점의 의미와 사용법 분석 PHP에서 중간점의 의미와 사용법 분석 Mar 27, 2024 pm 08:57 PM

[PHP 중간점의 의미와 사용법 분석] PHP에서 중간점(.)은 두 개의 문자열이나 객체의 속성이나 메소드를 연결하는 데 사용되는 일반적으로 사용되는 연산자입니다. 이 기사에서는 구체적인 코드 예제를 통해 PHP에서 중간점의 의미와 사용법을 자세히 살펴보겠습니다. 1. 문자열 중간점 연산자 연결 PHP에서 가장 일반적인 사용법은 두 문자열을 연결하는 것입니다. 두 문자열 사이에 .을 배치하면 두 문자열을 이어붙여 새 문자열을 만들 수 있습니다. $string1=&qu

Apache2는 PHP 파일을 올바르게 구문 분석할 수 없습니다. Apache2는 PHP 파일을 올바르게 구문 분석할 수 없습니다. Mar 08, 2024 am 11:09 AM

공간 제한으로 인해 다음은 간략한 기사입니다. Apache2는 일반적으로 사용되는 웹 서버 소프트웨어이고 PHP는 널리 사용되는 서버측 스크립팅 언어입니다. 웹 사이트를 구축하는 과정에서 Apache2가 PHP 파일을 올바르게 구문 분석할 수 없어 PHP 코드가 실행되지 않는 문제가 발생하는 경우가 있습니다. 이 문제는 일반적으로 Apache2가 PHP 모듈을 올바르게 구성하지 않거나 PHP 모듈이 Apache2 버전과 호환되지 않기 때문에 발생합니다. 이 문제를 해결하는 방법은 일반적으로 두 가지가 있는데, 그 중 하나는

Win11의 새로운 기능 분석: Microsoft 계정 로그인을 건너뛰는 방법 Win11의 새로운 기능 분석: Microsoft 계정 로그인을 건너뛰는 방법 Mar 27, 2024 pm 05:24 PM

Win11의 새로운 기능 분석: Microsoft 계정 로그인을 건너뛰는 방법 Windows 11이 출시되면서 많은 사용자는 Windows 11이 더 편리하고 새로운 기능을 제공한다는 사실을 알게 되었습니다. 그러나 일부 사용자는 시스템을 Microsoft 계정에 연결하는 것을 좋아하지 않아 이 단계를 건너뛰기를 원할 수도 있습니다. 이 문서에서는 사용자가 Windows 11에서 Microsoft 계정 로그인을 건너뛰고 보다 개인적이고 자율적인 환경을 달성하는 데 도움이 되는 몇 가지 방법을 소개합니다. 먼저 일부 사용자가 Microsoft 계정에 로그인하기를 꺼리는 이유를 이해해 보겠습니다. 한편으로는 일부 사용자들은 다음과 같은 걱정을 합니다.

검색 엔진을 변경하기 위해 Chrome을 설정하는 방법은 무엇입니까? 브라우저에서 검색 엔진을 변경하는 방법은 무엇입니까? 검색 엔진을 변경하기 위해 Chrome을 설정하는 방법은 무엇입니까? 브라우저에서 검색 엔진을 변경하는 방법은 무엇입니까? Mar 15, 2024 pm 12:49 PM

Chrome에서 검색 엔진을 변경하는 방법은 무엇입니까? Google 크롬은 간단하고 사용하기 쉬운 서비스, 실용적인 도구 및 기타 보조 기능을 갖추고 있을 뿐만 아니라 일반적으로 Google을 기본으로 하는 다양한 사용자의 다양한 요구 사항을 충족할 수 있는 브라우저입니다. 교체하려면 어떻게 설정해야 하나요? 아래 방법을 공유해보겠습니다. 교체 방법 1. 클릭하여 Google Chrome을 엽니다. 2. 점 3개 아이콘을 클릭하여 메뉴 인터페이스를 엽니다. 3. 설정 옵션을 클릭하여 브라우저의 설정 인터페이스로 들어갑니다. 4. 설정 인터페이스에서 검색 엔진 모듈을 찾으세요. 5. 검색 엔진 관리 버튼을 클릭합니다. 6. 추가 버튼을 클릭하면 검색 엔진을 추가할 수 있습니다.​

See all articles