목차
설치 및 사용
HTML 요소 찾기
예시
操作元素属性
添加、删除和替换元素
最终想法
웹 프론트엔드 HTML 튜토리얼 DiDOM을 사용하여 HTML을 구문 분석하는 PHP 코드

DiDOM을 사용하여 HTML을 구문 분석하는 PHP 코드

Sep 08, 2023 am 11:41 AM
PHP 프로그래밍 HTML 구문 분석 didom

DiDOM을 사용하여 HTML을 구문 분석하는 PHP 코드

때때로 개발자는 웹사이트에서 일부 정보를 얻기 위해 웹페이지를 크롤링해야 합니다. 예를 들어, Wikipedia에서 여러 나라의 수도에 대한 지리 정보를 얻어야 하는 개인 프로젝트를 진행하고 있다고 가정해 보겠습니다. 수동 입력에는 시간이 많이 걸립니다. 그러나 PHP를 사용하면 Wikipedia 페이지를 스크랩하여 매우 빠르게 이 작업을 수행할 수 있습니다. 전체 마크업을 수동으로 탐색할 필요 없이 특정 정보에 대해 HTML을 자동으로 구문 분석할 수도 있습니다.

이 튜토리얼에서는 DiDOM이라는 빠르고 사용하기 쉬운 HTML 파서를 살펴보겠습니다. 설치 프로세스부터 시작한 다음 다양한 유형의 선택기(예: 태그, 클래스 등)를 사용하여 웹 페이지의 다양한 요소에서 정보를 추출하는 방법을 알아봅니다.

설치 및 사용

다음 명령을 실행하여 프로젝트 디렉터리에 DiDOM을 쉽게 설치할 수 있습니다.

으아아아

위 명령을 실행한 후 문자열, 로컬 파일 또는 웹 페이지에서 HTML을 로드할 수 있습니다. 예는 다음과 같습니다.

으아아아

문서에서 HTML을 구문 분석하기로 결정하면 이미 로드되어 변수에 저장되었을 수 있습니다. 이 경우 해당 변수를 Document()에 전달하면 DiDOM이 문자열을 구문 분석할 준비를 합니다.

HTML을 파일이나 URL에서 로드해야 하는 경우 이를 첫 번째 매개변수로 Document() 并将第二个参数设置为 true에 전달하고 두 번째 매개변수를 true로 설정할 수 있습니다.

매개변수 없이 new Document() 创建一个新的 Document 对象。在这种情况下,您可以调用方法 loadHtml() 从字符串加载 HTML,并调用 loadHtmlFile()를 사용하여 파일이나 웹 페이지에서 HTML을 로드할 수도 있습니다.

HTML 요소 찾기

요소에서 HTML이나 텍스트를 가져오기 전에 가장 먼저 해야 할 일은 요소 자체를 찾는 것입니다. 가장 간단한 방법은 find() 메소드를 사용하고 원하는 요소의 CSS 선택기를 첫 번째 인수로 전달하는 것입니다.

요소의 XPath를 find() 方法的第一个参数传递。但是,这需要您传递 Query::TYPE_XPATH 메소드의 첫 번째 매개변수로 전달할 수도 있습니다. 그러나 이를 위해서는 Query::TYPE_XPATH를 두 번째 매개변수로 전달해야 합니다.

XPath 값만 사용하여 HTML 요소를 찾으려면 쿼리를 전달하는 대신 <code class="inline">xpath() 메서드를 사용하면 됩니다. :TYPE_XPATH 매번 xpath() 方法,而不是传递 Query::TYPE_XPATH每次作为 find()의 두 번째 매개변수입니다.

DiDOM이 전달된 CSS 선택기 또는 XPATH 표현식과 일치하는 요소를 찾을 수 있으면 DiDomElement 인스턴스 배열을 반환합니다. 해당 요소가 발견되지 않으면 빈 배열을 반환합니다.

이 메서드는 배열을 반환하므로 find()[n-1]를 사용하여 일치하는 n번째 요소에 직접 액세스할 수 있습니다.

예시

아래 예에서는 워싱턴 DC에 관한 Wikipedia 기사의 모든 첫 번째 및 두 번째 수준 제목에서 내부 HTML을 가져옵니다

으아아아

워싱턴 DC에 관한 Wikipedia 기사의 URL을 전달하여 새 Document 개체를 만드는 것부터 시작합니다. 그런 다음 find() 方法获取主标题元素并将其存储在名为 $main_heading 的变量内。我们现在可以在此元素上调用不同的方法,例如 text()innerHtml()html() 메소드를 사용하여 기본 제목 요소를 가져와 $main_heading이라는 변수에 저장합니다. 이제 이 요소에 대해

, innerHtml(), html() 등과 같은 다양한 메서드를 호출할 수 있습니다.

html() 方法即可返回整个标题元素的 HTML。同样,我们可以使用 innerHtml() 方法获取特定元素内的 HTML。有时,您会对元素的纯文本内容而不是其 HTML 更感兴趣。在这种情况下,您只需使用 text()주 제목의 경우

메소드만 호출하면 됩니다.

두 번째 수준 제목은 Wikipedia 페이지를 잘 정의된 섹션으로 나눕니다. 그러나 "참조", "참고" 등과 같은 부제목 ​​중 일부를 제거할 수도 있습니다.

text()한 가지 방법은 모든 보조 제목을 반복하여

메서드에서 반환된 값을 확인하는 것입니다. 반환된 제목 텍스트가 "See Also"이면 루프에서 빠져 나옵니다.

$document->find('h2')[3]$document- 可以直接到达第四或第六级二级标题>find('h2')[5]각각

을 사용하세요.

DOM 위아래로 탐색

특정 요소에 액세스하면 라이브러리를 통해 DOM 트리를 위아래로 탐색하여 다른 요소에 쉽게 액세스할 수 있습니다.

parent() 方法转到 HTML 元素的父元素。同样,您可以使用 nextSibling()previousSibling()

메소드를 사용하여 요소의 다음 또는 이전 형제를 가져올 수 있습니다. 🎜

还有很多方法可用于访问 DOM 元素的子元素。例如,您可以使用 child(n) 方法获取特定的子元素。同样,您可以使用 firstChild()lastChild() 方法访问特定元素的第一个或最后一个子元素。您可以使用 children() 方法循环遍历特定 DOM 元素的所有子元素。

一旦到达特定元素,您将能够使用 html()innerHtml()text() 方法。

在下面的示例中,我们从二级标题元素开始,并继续检查下一个同级元素是否包含一些文本。一旦我们找到带有一些文本的同级元素,我们就会将其输出到浏览器。

require_once('vendor/autoload.php');

use DiDom\Document;

$document = new Document('https://en.wikipedia.org/wiki/Washington,_D.C.', true);

$sub_headings = $document->find('h2');

for($i = 1; $i < count($sub_headings); $i++) {
    if($sub_headings[$i]->text() !== 'See also') {
        $next_sibling = $sub_headings[$i]->nextSibling();
        while(!$next_elem->html()) {
            $next_sibling = $next_sibling->nextSibling();
        }

        echo $next_elem->html()."<br>";
    } else {
        break;
    }
}
로그인 후 복사

您可以使用类似的技术循环遍历所有同级元素,并且仅在文本包含特定字符串或同级元素是段落标记等时输出文本。一旦您了解了基础知识,找到正确的信息就是简单的。

操作元素属性

在某些情况下,获取或设置不同元素的属性值的能力非常有用。例如,我们可以使用 $image_elem->attr( 'src').以类似的方式,您可以获得文档中所有 a 标记的 href 属性的值。

可以通过三种方法获取 HTML 元素的给定属性的值。您可以使用 getAttribute('attrName') 方法并将您感兴趣的属性名称作为参数传递。您还可以使用 attr('attrName') 方法,其工作方式与 getAttribute() 类似。最后,该库还允许您使用 $elem->attrName 直接获取属性值。这意味着您可以使用 $imageElem->src 直接获取图像元素的 src 属性值。

require_once('vendor/autoload.php');

use DiDom\Document;

$document = new Document('https://en.wikipedia.org/wiki/Washington,_D.C.', true);

$images = $document->find('img');

foreach($images as $image) {
    echo $image->src."<br>";
}
로그인 후 복사

一旦您有权访问src属性,您就可以编写代码来自动下载所有图像文件。这样,您将能够节省大量时间。

您还可以使用三种不同的技术来设置给定属性的值。首先,您可以使用 setAttribute('attrName', 'attrValue') 方法来设置属性值。您还可以使用 attr('attrName', 'attrValue') 方法来设置属性值。最后,您可以使用 $Elem->attrName = 'attrValue' 设置给定元素的属性值。

添加、删除和替换元素

您还可以使用库提供的不同方法对加载的 HTML 文档进行更改。例如,您可以使用 appendChild()replace()从 DOM 树添加、替换或删除元素">删除() 方法。

该库还允许您创建自己的 HTML 元素,以便将它们附加到原始 HTML 文档中。您可以使用 new Element('tagName', 'tagContent') 创建新的 Element 对象。

请记住,如果您的程序在实例化之前不包含行 use DiDom\Element ,您将收到未捕获错误:未找到“Element”类错误元素对象。

获得该元素后,您可以使用 appendChild() 方法将其附加到 DOM 中的其他元素,也可以使用 replace( ) 方法使用新实例化的元素来替换文档中某些旧的 HTML 元素。下面的例子应该有助于进一步阐明这个概念。

require_once('vendor/autoload.php');

use DiDom\Document;
use DiDom\Element;

$document = new Document('https://en.wikipedia.org/wiki/Washington,_D.C.', true);

// This will result in error.
echo $document->find('h2.test-heading')[0]->html()."\n";

$test_heading = new Element('h2', 'This is test heading.');
$test_heading->class = 'test-heading';

$document->find('h1')[0]->replace($test_heading);

echo $document->find('h2.test-heading')[0]->html()."\n";
로그인 후 복사

最初,我们的文档中没有 test-heading 类的 h2 元素。因此,如果我们尝试访问这样的元素,我们将不断收到错误。

验证不存在这样的元素后,我们创建一个新的h2元素,并将其class属性的值更改为test-heading >.

之后,我们将文档中的第一个 h1 元素替换为新创建的 h2 元素。再次在我们的文档中使用 find() 方法查找带有 test-heading 类的 h2 标题,现在将返回一个元素。

最终想法

本教程介绍了 PHP DiDOM HTML 解析器的基础知识。我们从安装开始,然后学习如何从字符串、文件或 URL 加载 HTML。之后,我们讨论了如何根据 CSS 选择器或 XPath 查找特定元素。我们还学习了如何获取元素的兄弟元素、父元素或子元素。其余部分介绍了如何操作特定元素的属性或在 HTML 文档中添加、删除和替换元素。

如果您希望我在教程中澄清任何内容,请随时在评论中告诉我。

위 내용은 DiDOM을 사용하여 HTML을 구문 분석하는 PHP 코드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

<gum> : Bubble Gum Simulator Infinity- 로얄 키를 얻고 사용하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Nordhold : Fusion System, 설명
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora : 마녀 트리의 속삭임 - Grappling Hook 잠금 해제 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

PHP 형식 행을 CSV로 변환하고 파일 포인터 쓰기 PHP 형식 행을 CSV로 변환하고 파일 포인터 쓰기 Mar 22, 2024 am 09:00 AM

이 기사에서는 PHP가 행을 CSV로 형식화하고 파일 포인터를 작성하는 방법에 대해 자세히 설명합니다. 매우 실용적이므로 이 기사를 읽고 뭔가를 얻을 수 있기를 바랍니다. 행을 CSV로 포맷하고 파일 포인터에 씁니다. 1단계: 파일 포인터 열기 $file=fopen("path/to/file.csv","w") 2단계: fputcsv( ) 함수를 사용하여 행을 CSV 문자열로 변환합니다. CSV 문자열로. 이 함수는 다음 매개변수를 허용합니다: $file: 파일 포인터 $fields: 배열로서의 CSV 필드 $delimiter: 필드 구분 기호(선택 사항) $enclosure: 필드 따옴표(

PHP는 고유한 파일 이름을 가진 파일을 생성합니다. PHP는 고유한 파일 이름을 가진 파일을 생성합니다. Mar 21, 2024 am 11:22 AM

이 글에서는 PHP에서 고유한 파일 이름을 갖는 파일을 생성하는 방법에 대해 자세히 설명할 것입니다. 편집자는 이것이 매우 실용적이라고 생각하므로 이 글을 읽으신 후 뭔가를 얻으실 수 있기를 바랍니다. PHP에서 고유한 파일 이름을 가진 파일 만들기 소개 PHP에서 고유한 파일 이름을 가진 파일을 만드는 것은 파일 시스템을 구성하고 관리하는 데 필수적입니다. 고유한 파일 이름을 사용하면 기존 파일을 덮어쓰지 않고 특정 파일을 더 쉽게 찾고 검색할 수 있습니다. 이 가이드에서는 PHP에서 고유한 파일 이름을 생성하는 여러 가지 방법을 다룹니다. 방법 1: uniqid() 함수 사용 uniqid() 함수는 현재 시간과 마이크로초를 기반으로 고유한 문자열을 생성합니다. 이 문자열은 파일 이름의 기초로 사용될 수 있습니다.

PHP는 현재 umask를 변경합니다 PHP는 현재 umask를 변경합니다 Mar 22, 2024 am 08:41 AM

이 기사에서는 PHP에서 현재 umask를 변경하는 방법에 대해 자세히 설명할 것입니다. 편집자는 이것이 매우 실용적이라고 생각하므로 이 기사를 읽고 뭔가를 얻을 수 있기를 바랍니다. 현재 umask를 변경하는 PHP 개요 umask는 새로 생성된 파일 및 디렉터리에 대한 기본 파일 권한을 설정하는 데 사용되는 PHP 함수입니다. 차단 권한을 나타내는 8진수인 하나의 인수를 허용합니다. 예를 들어 새로 생성된 파일에 대한 쓰기 권한을 방지하려면 002를 사용합니다. umask 변경 방법 PHP에서 현재 umask를 변경하는 방법에는 두 가지가 있습니다. umask() 함수 사용: umask() 함수는 현재 umask를 직접 변경합니다. 구문은 다음과 같습니다.

PHP는 키가 뒤집힌 배열을 반환합니다. PHP는 키가 뒤집힌 배열을 반환합니다. Mar 21, 2024 pm 02:10 PM

이 기사에서는 키 값을 뒤집은 후 PHP가 배열을 반환하는 방법을 자세히 설명합니다. 편집자는 이것이 매우 실용적이라고 생각하므로 이 기사를 읽고 뭔가를 얻을 수 있기를 바랍니다. PHP 키 값 뒤집기 배열 키 값 뒤집기는 배열의 키와 값을 교환하여 원래 키를 값으로, 원래 값을 키로 사용하여 새 배열을 생성하는 배열 작업입니다. 구현 방법 PHP에서는 다음 방법을 통해 배열의 키-값 뒤집기를 수행할 수 있습니다. array_flip() 함수: array_flip() 함수는 키-값 뒤집기 작업에 특별히 사용됩니다. 배열을 인수로 받고 키와 값이 교환된 새 배열을 반환합니다. $original_array=[

PHP는 파일의 MD5 해시를 계산합니다. PHP는 파일의 MD5 해시를 계산합니다. Mar 21, 2024 pm 01:42 PM

이 기사에서는 파일의 MD5 해시를 계산하는 PHP에 대해 자세히 설명할 것입니다. 편집자는 이것이 매우 실용적이라고 생각하므로 이 기사를 읽고 뭔가를 얻을 수 있기를 바랍니다. PHP는 파일의 MD5 해시를 계산합니다. MD5(MessageDigest5)는 임의 길이의 메시지를 고정 길이 128비트 해시 값으로 변환하는 단방향 암호화 알고리즘입니다. 파일 무결성을 보장하고 데이터 신뢰성을 확인하며 디지털 서명을 생성하는 데 널리 사용됩니다. PHP에서 파일의 MD5 해시 계산하기 PHP는 파일의 MD5 해시를 계산하는 여러 가지 방법을 제공합니다. md5_file() 함수를 사용하십시오. md5_file() 함수는 파일의 MD5 해시 값을 직접 계산하고 32자를 반환합니다.

PHP는 파일을 주어진 길이로 자릅니다. PHP는 파일을 주어진 길이로 자릅니다. Mar 21, 2024 am 11:42 AM

이 기사에서는 PHP가 파일을 주어진 길이로 자르는 방법에 대해 자세히 설명합니다. 편집자는 이것이 매우 실용적이라고 생각하므로 이 기사를 읽고 뭔가를 얻을 수 있기를 바랍니다. PHP 파일 자르기 소개 PHP의 file_put_contents() 함수는 파일을 지정된 길이로 자르는 데 사용할 수 있습니다. 잘림이란 파일 끝 부분을 제거하여 파일 길이를 줄이는 것을 의미합니다. 구문 file_put_contents($filename,$data,SEEK_SET,$offset);$filename: 잘라낼 파일 경로. $data: 파일에 쓸 빈 문자열입니다. SEEK_SET : 파일의 시작 부분으로 지정

PHP는 이전 MySQL 작업에서 오류 메시지의 숫자 인코딩을 반환합니다. PHP는 이전 MySQL 작업에서 오류 메시지의 숫자 인코딩을 반환합니다. Mar 22, 2024 pm 12:31 PM

이번 글에서는 이전 Mysql 작업에서 PHP가 반환한 오류 메시지의 디지털 인코딩에 대해 자세히 설명하겠습니다. 편집자는 이것이 매우 실용적이라고 생각하므로 이 글을 읽고 뭔가를 얻을 수 있기를 바랍니다. . PHP를 사용하여 MySQL 오류 정보 반환 숫자 인코딩 소개 mysql 쿼리를 처리할 때 오류가 발생할 수 있습니다. 이러한 오류를 효과적으로 처리하려면 오류 메시지의 숫자 인코딩을 이해하는 것이 중요합니다. 이 기사에서는 PHP를 사용하여 MySQL 오류 메시지의 숫자 인코딩을 얻는 방법을 안내합니다. 오류 정보의 숫자 인코딩을 얻는 방법 1. mysqli_errno() mysqli_errno() 함수는 현재 MySQL 연결의 가장 최근 오류 번호를 반환합니다. 구문은 다음과 같습니다: $erro

PHP는 지정된 키가 배열에 존재하는지 확인합니다. PHP는 지정된 키가 배열에 존재하는지 확인합니다. Mar 21, 2024 pm 09:21 PM

이 글에서는 PHP가 특정 키가 배열에 존재하는지 여부를 어떻게 판단하는지 자세히 설명할 것입니다. 편집자는 이것이 매우 실용적이라고 생각하므로 이 글을 읽으신 후 참고하실 수 있기를 바랍니다. PHP는 지정된 키가 배열에 존재하는지 확인합니다. PHP에서는 지정된 키가 배열에 존재하는지 확인하는 여러 가지 방법이 있습니다. 1. isset() 함수를 사용합니다: isset($array["key"]) 이 함수 부울 값을 반환합니다. 지정된 키가 존재하면 true이고, 그렇지 않으면 false입니다. 2. array_key_exists() 함수를 사용하세요: array_key_exists("key",$arr

See all articles