矢量搜索入门（第 2 部分）-Python教程-PHP中文网

首页

后端开发

Python教程

矢量搜索入门（第 2 部分）

Linda Hamilton

Nov 10, 2024 am 02:07 AM

Getting Started with Vector Search (Part 2)

在第 1 部分中，我们使用 pgvector 设置 PostgreSQL。现在，让我们看看矢量搜索实际上是如何工作的。

内容

什么是嵌入？
加载示例数据
探索向量搜索
了解 PostgreSQL 运算符
后续步骤

什么是嵌入？

嵌入就像数字内容的智能摘要。两个嵌入之间的距离表明它们的相似程度。距离小表明向量非常相似，距离大表明它们相关性较低。

? Book A: Web Development  (Distance: 0.2) ⬅️ Very Similar!
? Book B: JavaScript 101   (Distance: 0.3) ⬅️ Similar!
? Book C: Cooking Recipes  (Distance: 0.9) ❌ Not Similar

登录后复制

加载样本数据

现在，让我们用一些数据填充我们的数据库。我们将使用：

开放图书数据的图书馆 API
用于创建嵌入的 OpenAI API
pgvector 用于存储和搜索它们

项目结构

pgvector-setup/             # From Part 1
  ├── compose.yml
  ├── postgres/
  │   └── schema.sql
  ├── .env                  # New: for API keys
  └── scripts/              # New: for data loading
      ├── requirements.txt
      ├── Dockerfile
      └── load_data.py

登录后复制

创建脚本

让我们从一个从外部 API 加载数据的脚本开始。完整的脚本在这里。

设置数据加载

创建.env：

OPENAI_API_KEY=your_openai_api_key

登录后复制

更新 compose.yml 以添加数据加载器：

services:
  # ... existing db service from Part 1

  data_loader:
    build:
      context: ./scripts
    environment:
      - DATABASE_URL=postgresql://postgres:password@db:5432/example_db
      - OPENAI_API_KEY=${OPENAI_API_KEY}
    depends_on:
      - db

登录后复制

加载数据：

docker compose up data_loader

登录后复制

您应该会看到 10 本编程书籍及其元数据。

探索矢量搜索

连接到您的数据库：

docker exec -it pgvector-db psql -U postgres -d example_db

登录后复制

了解矢量数据

让我们看看嵌入实际上是什么样的：

-- View first 5 dimensions of an embedding
SELECT
    name,
    (embedding::text::float[])[1:5] as first_5_dimensions
FROM items
LIMIT 1;

登录后复制

每个嵌入有 1536 个维度（使用 OpenAI 的模型）
值的范围通常为 -1 到 1
这些数字代表语义

寻找类似的书籍

尝试简单的相似性搜索：

-- Find 3 books similar to any book about Web
SELECT name, metadata
FROM items
ORDER BY embedding <-> (
    SELECT embedding
    FROM items
    WHERE metadata->>'title' LIKE '%Web%'
    LIMIT 1
)
LIMIT 3;

登录后复制

查找一本标题中带有“Web”的书
获取该书的嵌入（其数学表示）
将此嵌入与所有其他书籍的嵌入进行比较
获取3本最相似的书（距离最小）

了解 PostgreSQL 运算符

让我们分解一下矢量搜索查询中使用的运算符：

JSON 文本运算符：->>

从 JSON 字段中提取文本值。

示例：

-- If metadata = {"title": "ABC"}, it returns "ABC"
SELECT metadata->>'title' FROM items;

登录后复制

向量距离运算符：

测量两个向量之间的相似性。

距离越小=越相似
距离越大=相似度越低

示例：

-- Find similar books
SELECT name, embedding <-> query_embedding as distance
FROM items
ORDER BY distance
LIMIT 3;

登录后复制

下一步

接下来，我们将：

构建 FastAPI 应用程序
创建搜索端点
通过 API 访问我们的矢量搜索

敬请关注第 3 部分：“构建矢量搜索 API”！？

欢迎在下面发表评论！？

以上是矢量搜索入门（第 2 部分）的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1664

CakePHP 教程

1423

Laravel 教程

1318

PHP教程

1269

C# 教程

1248

显示更多

Related knowledge

Python vs.C：申请和用例 Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务，而C 适用于系统编程、游戏开发和嵌入式系统。 Python以简洁和强大的生态系统着称，C 则以高性能和底层控制能力闻名。

2小时的Python计划：一种现实的方法 Apr 11, 2025 am 12:04 AM

2小时内可以学会Python的基本编程概念和技能。1.学习变量和数据类型，2.掌握控制流（条件语句和循环），3.理解函数的定义和使用，4.通过简单示例和代码片段快速上手Python编程。

Python：游戏，Guis等 Apr 13, 2025 am 12:14 AM

Python在游戏和GUI开发中表现出色。1)游戏开发使用Pygame，提供绘图、音频等功能，适合创建2D游戏。2)GUI开发可选择Tkinter或PyQt，Tkinter简单易用，PyQt功能丰富，适合专业开发。

Python与C：学习曲线和易用性 Apr 19, 2025 am 12:20 AM

Python更易学且易用，C 则更强大但复杂。1.Python语法简洁，适合初学者，动态类型和自动内存管理使其易用，但可能导致运行时错误。2.C 提供低级控制和高级特性，适合高性能应用，但学习门槛高，需手动管理内存和类型安全。

Python和时间：充分利用您的学习时间 Apr 14, 2025 am 12:02 AM

要在有限的时间内最大化学习Python的效率，可以使用Python的datetime、time和schedule模块。1.datetime模块用于记录和规划学习时间。2.time模块帮助设置学习和休息时间。3.schedule模块自动化安排每周学习任务。

Python vs.C：探索性能和效率 Apr 18, 2025 am 12:20 AM

Python在开发效率上优于C ，但C 在执行性能上更高。1.Python的简洁语法和丰富库提高开发效率。2.C 的编译型特性和硬件控制提升执行性能。选择时需根据项目需求权衡开发速度与执行效率。

Python：自动化，脚本和任务管理 Apr 16, 2025 am 12:14 AM

Python在自动化、脚本编写和任务管理中表现出色。1)自动化：通过标准库如os、shutil实现文件备份。2)脚本编写：使用psutil库监控系统资源。3)任务管理：利用schedule库调度任务。Python的易用性和丰富库支持使其在这些领域中成为首选工具。

学习Python：2小时的每日学习是否足够？ Apr 18, 2025 am 12:22 AM

每天学习Python两个小时是否足够？这取决于你的目标和学习方法。1)制定清晰的学习计划，2)选择合适的学习资源和方法，3)动手实践和复习巩固，可以在这段时间内逐步掌握Python的基本知识和高级功能。

See all articles

矢量搜索入门（第 2 部分）

内容

什么是嵌入？

加载样本数据

项目结构

创建脚本

设置数据加载

探索矢量搜索

了解矢量数据

寻找类似的书籍

了解 PostgreSQL 运算符

JSON 文本运算符：->>

向量距离运算符：

下一步

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题