首页 后端开发 Golang 使用 Elasticsearch 在 Go 中构建 Web 搜索引擎

使用 Elasticsearch 在 Go 中构建 Web 搜索引擎

Nov 05, 2024 am 10:33 AM

网络搜索引擎对于索引大量在线信息至关重要,可以在几毫秒内访问这些信息。在这个项目中,我用 Go (Golang) 构建了一个名为 RelaxSearch 的搜索引擎。它通过与强大的搜索和分析引擎 Elasticsearch 集成,将网络抓取、定期数据索引和搜索功能结合在一起。在这篇博客中,我将带您了解 RelaxSearch 的主要组件、架构,以及它如何有效地抓取和索引数据,以实现基于关键字的快速搜索。

RelaxSearch 概述

RelaxSearch 围绕两个主要模块构建:

  1. RelaxEngine:由 cron 作业提供支持的网络抓取工具,它定期抓取指定的网站、提取内容并在 Elasticsearch 中为其建立索引。
  2. RelaxWeb:一个 RESTful API 服务器,允许用户搜索索引数据,提供分页、过滤和内容突出显示,以实现用户友好的响应。

项目动机

从头开始创建搜索引擎项目是了解网络抓取、数据索引和高效搜索技术的好方法。我想利用 Go 的效率和 Elasticsearch 强大的索引创建一个简单但实​​用的搜索引擎,具有快速数据检索和易于扩展的特点。

主要特点

  • 自动抓取:使用 cron 作业,RelaxEngine 可以定期运行,抓取数据并将其存储在 Elasticsearch 中。
  • 全文搜索:RelaxWeb提供全文搜索功能,按关键字索引内容,检索速度快。
  • REST API:可通过带有分页、日期过滤和内容突出显示参数的 RESTful API 进行访问。
  • 数据存储:索引内容存储在Elasticsearch中,允许可扩展和高度响应的查询。

RelaxSearch的架构

1.RelaxEngine(网页抓取器和索引器)

RelaxEngine 是一个用 Go 编写的网络抓取工具,用于导航网页、提取和存储内容。它作为 cron 作业运行,因此可以定期(例如每 30 分钟)运行一次,以保持索引更新为最新的 Web 数据。其工作原理如下:

  • 种子 URL:RelaxEngine 开始从指定的种子 URL 进行抓取,然后跟踪站点内的链接直至可配置的深度。
  • 内容解析:对于每个页面,它提取标题、描述和关键字,构建信息数据集。
  • Elasticsearch 中的索引:抓取的内容在 Elasticsearch 中建立索引,准备进行全文搜索。每个页面的数据都存储有唯一的标识符、标题、描述和其他元数据。

2.RelaxWeb(搜索API)

RelaxWeb 提供 RESTful API 端点,可以轻松查询和检索 Elasticsearch 中存储的数据。 API 接受关键字、分页、日期过滤等多个参数,以 JSON 格式返回相关内容。

  • API 端点:/search
  • 查询参数
    • 关键字:主要搜索词。
    • from 和 size:分页控制。
    • dateRangeStart 和 dateRangeEnd:根据数据时间戳过滤结果。

Building a Web Search Engine in Go with Elasticsearch

关键组件和代码片段

下面是一些来自 RelaxSearch 的重要组件和代码摘录,以说明其工作原理。

RelaxEngine 的主要 Go 代码

核心功能位于 main.go 文件中,其中 RelaxEngine 使用 gocron 初始化调度程序来管理 cron 作业,设置 Elasticsearch 客户端,并开始从种子 URL 进行爬取。

func main() {
    cfg := config.LoadConfig()
    esClient := crawler.NewElasticsearchClient(cfg.ElasticsearchURL)
    c := crawler.NewCrawler(cfg.DepthLimit, 5)
    seedURL := "https://example.com/" // Replace with starting URL

    s := gocron.NewScheduler(time.UTC)
    s.Every(30).Minutes().Do(func() {
        go c.StartCrawling(seedURL, 0, esClient)
    })
    s.StartBlocking()
}
登录后复制

爬虫和索引逻辑

crawler.go 文件处理网页请求、提取内容并为其建立索引。使用elastic包,每个抓取的页面都存储在Elasticsearch中。

func (c *Crawler) StartCrawling(pageURL string, depth int, esClient *elastic.Client) {
    if depth > c.DepthLimit || c.isVisited(pageURL) {
        return
    }
    c.markVisited(pageURL)
    links, title, content, description, err := c.fetchAndParsePage(pageURL)
    if err == nil {
        pageData := PageData{URL: pageURL, Title: title, Content: content, Description: description}
        IndexPageData(esClient, pageData)
    }
    for _, link := range links {
        c.StartCrawling(link, depth+1, esClient)
    }
}
登录后复制

在RelaxWeb中搜索API代码

在relaxweb服务中,API端点提供全文搜索功能。端点 /search 接收请求并查询 Elasticsearch,根据关键字返回相关内容。

func searchHandler(w http.ResponseWriter, r *http.Request) {
    keyword := r.URL.Query().Get("keyword")
    results := queryElasticsearch(keyword)
    json.NewEncoder(w).Encode(results)
}
登录后复制

设置 RelaxSearch

  1. 克隆存储库
   git clone https://github.com/Ravikisha/RelaxSearch.git
   cd RelaxSearch
登录后复制
  1. 配置

    使用 Elasticsearch 凭证更新 RelaxEngine 和 RelaxWeb 的 .env 文件。

  2. 使用 Docker 运行

    RelaxSearch 使用 Docker 来轻松设置。只需运行:

   docker-compose up --build
登录后复制

Building a Web Search Engine in Go with Elasticsearch

Building a Web Search Engine in Go with Elasticsearch

Building a Web Search Engine in Go with Elasticsearch

挑战与改进

  • 可扩展性:Elasticsearch 可以很好地扩展,但是处理大量链接的大量抓取需要针对更大规模的部署进行优化。
  • 强大的错误处理:增强错误处理和重试机制将提高弹性。

结论

RelaxSearch 是基本搜索引擎的教育和实践演示。虽然它仍然是一个原型,但该项目对于理解 Web 抓取、全文搜索以及使用 Go 和 Elasticsearch 进行高效数据索引的基础知识很有帮助。它为可扩展环境中的改进和实际应用开辟了途径。

探索 GitHub 存储库,亲自尝试 RelaxSearch!

以上是使用 Elasticsearch 在 Go 中构建 Web 搜索引擎的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1662
14
CakePHP 教程
1419
52
Laravel 教程
1313
25
PHP教程
1262
29
C# 教程
1235
24
Golang的目的:建立高效且可扩展的系统 Golang的目的:建立高效且可扩展的系统 Apr 09, 2025 pm 05:17 PM

Go语言在构建高效且可扩展的系统中表现出色,其优势包括:1.高性能:编译成机器码,运行速度快;2.并发编程:通过goroutines和channels简化多任务处理;3.简洁性:语法简洁,降低学习和维护成本;4.跨平台:支持跨平台编译,方便部署。

Golang和C:并发与原始速度 Golang和C:并发与原始速度 Apr 21, 2025 am 12:16 AM

Golang在并发性上优于C ,而C 在原始速度上优于Golang。1)Golang通过goroutine和channel实现高效并发,适合处理大量并发任务。2)C 通过编译器优化和标准库,提供接近硬件的高性能,适合需要极致优化的应用。

Golang vs. Python:主要差异和相似之处 Golang vs. Python:主要差异和相似之处 Apr 17, 2025 am 12:15 AM

Golang和Python各有优势:Golang适合高性能和并发编程,Python适用于数据科学和Web开发。 Golang以其并发模型和高效性能着称,Python则以简洁语法和丰富库生态系统着称。

Golang的影响:速度,效率和简单性 Golang的影响:速度,效率和简单性 Apr 14, 2025 am 12:11 AM

GoimpactsdevelopmentPositationalityThroughSpeed,效率和模拟性。1)速度:gocompilesquicklyandrunseff,ifealforlargeprojects.2)效率:效率:ITScomprehenSevestAndArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdEcceSteral Depentencies,增强开发的简单性:3)SimpleflovelmentIcties:3)简单性。

Golang vs. Python:性能和可伸缩性 Golang vs. Python:性能和可伸缩性 Apr 19, 2025 am 12:18 AM

Golang在性能和可扩展性方面优于Python。1)Golang的编译型特性和高效并发模型使其在高并发场景下表现出色。2)Python作为解释型语言,执行速度较慢,但通过工具如Cython可优化性能。

C和Golang:表演至关重要时 C和Golang:表演至关重要时 Apr 13, 2025 am 12:11 AM

C 更适合需要直接控制硬件资源和高性能优化的场景,而Golang更适合需要快速开发和高并发处理的场景。1.C 的优势在于其接近硬件的特性和高度的优化能力,适合游戏开发等高性能需求。2.Golang的优势在于其简洁的语法和天然的并发支持,适合高并发服务开发。

表演竞赛:Golang vs.C 表演竞赛:Golang vs.C Apr 16, 2025 am 12:07 AM

Golang和C 在性能竞赛中的表现各有优势:1)Golang适合高并发和快速开发,2)C 提供更高性能和细粒度控制。选择应基于项目需求和团队技术栈。

Golang和C:性能的权衡 Golang和C:性能的权衡 Apr 17, 2025 am 12:18 AM

Golang和C 在性能上的差异主要体现在内存管理、编译优化和运行时效率等方面。1)Golang的垃圾回收机制方便但可能影响性能,2)C 的手动内存管理和编译器优化在递归计算中表现更为高效。

See all articles