PostgreSQL 全文検索の位置別ランク
最近、全文検索で問題が発生しました。私は検索入力でこの機能を使用しており、入力時にバックエンドが一致する可能性のあるヒントを送信します。バックエンドデータベースはPostgreSQLです。テキスト内の検索語の位置によってヒントをランク付けする必要がありました。
そのため、「スター ウォーズ」のタイトルを検索すると、「スター ウォーズ 7 ~ 9 がスター ウォーズの世界をどう変えたか (スター ウォーズに関する楽しいドキュメンタリー)」ではなく、「スター ウォーズ」の投稿が最初に表示されます。期間が3回あるほど上位にランクされます。
PostgreSQL での全文検索
PostgreSQL での全文検索は非常に簡単に実現できます。使用する主なツールは 2 つあります:
- tsvector - 検索可能なドキュメントを表します。
- tsquery - ドキュメントに対して実行する検索クエリを表します。
ブログ投稿のタイトルを検索したいとします。それらを検索可能にするには、次のクエリを使用できます:
SELECT id, title FROM blogposts WHERE to_tsquery('JavaScript') @@ to_tsvector(posts.title);
この場合、検索ごとに投稿タイトルを動的に tsvector に変換しています。ただし、この変換には時間がかかります。より良いアプローチは、この変換をデータベース内で事前に実行し、それをタイトルのインデックスとして保存して、検索を高速化することです。
タイトルのベクトルの新しい列を作成し、この新しい列にインデックスを付けましょう:
ALTER TABLE blogposts ADD COLUMN search_vector tsvector; UPDATE blogposts SET search_vector = (to_tsvector(posts.title)); CREATE INDEX titles_fts_idx ON blogposts USING gin(search_vector);
次に、「JavaScript」という用語を検索してみてください
SELECT id, title FROM blogposts WHERE to_tsquery('JavaScript') @@ search_vector;
次のように、ts ベクトルから直接タイトル列にインデックスを作成することもできます。
CREATE INDEX titles_fts_idx ON blogposts USING GIN (to_tsvector(posts.title));
次のように検索を使用します:
SELECT id, title FROM blogposts WHERE to_tsquery('JavaScript') @@ posts.title;
全文検索が非常に高速になり、数ミリ秒で完了します。
結果のランキング
PostgreSQL には ts_rank 機能があり、検索結果にスコアを付け、ランキングに基づいて並べ替えることができます。 PostgreSQL は次のランキング オプションをサポートしています:
- 0 (デフォルト) はドキュメントの長さを無視します
- 1 はランクをドキュメントの長さの対数の 1 で割ります
- 2 はランクをドキュメントの長さで割ります
- 4 はランクをエクステント間の平均調和距離で割ります (これは ts_rank_cd によってのみ実装されます)
- 8 は、文書内の固有の単語の数でランクを割ります
- 16 は、ランクを文書内の固有の単語数の対数 1 で割ります
- 32 はランクを 1 で割ります
ts_rank は次のように使用できます:
SELECT ... ts_rank(search_vector, to_tsquery('JavaScript'), 0) as rank_title ... ORDER BY rank_title DESC NULLS LAST
ただし、文字列 (タイトル列など) 内の検索語の位置に基づく組み込みのランキング オプションはありません。
救助の位置
幸いなことに、PostgreSQL には POSITION 関数があります。 PostgreSQL POSITION 関数は、指定された文字列内の部分文字列の位置を見つけるために使用されます。私たちの場合、次のように使用できます
SELECT id, title FROM blogposts WHERE to_tsquery('JavaScript') @@ to_tsvector(posts.title);
ts_rank は正規化整数 2 を使用します。2 はランクをドキュメントの長さで割るためです。
マジックナンバー 0.0001 は、POSTION 関数が 0 ではなく 1 からカウントし、文字列が見つからない場合は 0 を返すため、0 による除算を避けるためのものです。
最終的なコードは次のようになります:
ALTER TABLE blogposts ADD COLUMN search_vector tsvector; UPDATE blogposts SET search_vector = (to_tsvector(posts.title)); CREATE INDEX titles_fts_idx ON blogposts USING gin(search_vector);
さらに用語を検索する
一度に複数の用語を検索する場合は、1 つの注意点があります (JavaScript や TypeScript など)。
to_tsquery 関数の引数は、論理演算子などを含め、非常に柔軟に使用できます。一方、POSITION 関数は文字列内の「単なる」部分文字列です。
現実世界の例
これは、postgres (SQL) npm ライブラリを使用する SvelteKit Web アプリケーションの実際のエンドポイントからの私の例です:
SELECT id, title FROM blogposts WHERE to_tsquery('JavaScript') @@ search_vector;
問題のドキュメントへのリンクは次のとおりです:
- https://www.postgresql.org/docs/current/textsearch-controls.html#TEXTSEARCH-PARSING-QUERIES https://www.postgresql.org/docs/current/textsearch-controls.html#TEXTSEARCH-PARSING-DOCUMENTS
- https://www.postgresql.org/docs/current/textsearch-controls.html#TEXTSEARCH-RANKING
- https://www.postgresql.org/docs/9.1/functions-string.html
以上がPostgreSQL 全文検索の位置別ランクの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











さまざまなJavaScriptエンジンは、各エンジンの実装原則と最適化戦略が異なるため、JavaScriptコードを解析および実行するときに異なる効果をもたらします。 1。語彙分析:ソースコードを語彙ユニットに変換します。 2。文法分析:抽象的な構文ツリーを生成します。 3。最適化とコンパイル:JITコンパイラを介してマシンコードを生成します。 4。実行:マシンコードを実行します。 V8エンジンはインスタントコンピレーションと非表示クラスを通じて最適化され、Spidermonkeyはタイプ推論システムを使用して、同じコードで異なるパフォーマンスパフォーマンスをもたらします。

Pythonは、スムーズな学習曲線と簡潔な構文を備えた初心者により適しています。 JavaScriptは、急な学習曲線と柔軟な構文を備えたフロントエンド開発に適しています。 1。Python構文は直感的で、データサイエンスやバックエンド開発に適しています。 2。JavaScriptは柔軟で、フロントエンドおよびサーバー側のプログラミングで広く使用されています。

C/CからJavaScriptへのシフトには、動的なタイピング、ゴミ収集、非同期プログラミングへの適応が必要です。 1)C/Cは、手動メモリ管理を必要とする静的に型付けられた言語であり、JavaScriptは動的に型付けされ、ごみ収集が自動的に処理されます。 2)C/Cはマシンコードにコンパイルする必要がありますが、JavaScriptは解釈言語です。 3)JavaScriptは、閉鎖、プロトタイプチェーン、約束などの概念を導入します。これにより、柔軟性と非同期プログラミング機能が向上します。

Web開発におけるJavaScriptの主な用途には、クライアントの相互作用、フォーム検証、非同期通信が含まれます。 1)DOM操作による動的なコンテンツの更新とユーザーインタラクション。 2)ユーザーエクスペリエンスを改善するためにデータを提出する前に、クライアントの検証が実行されます。 3)サーバーとのリフレッシュレス通信は、AJAXテクノロジーを通じて達成されます。

現実世界でのJavaScriptのアプリケーションには、フロントエンドとバックエンドの開発が含まれます。 1)DOM操作とイベント処理を含むTODOリストアプリケーションを構築して、フロントエンドアプリケーションを表示します。 2)node.jsを介してRestfulapiを構築し、バックエンドアプリケーションをデモンストレーションします。

JavaScriptエンジンが内部的にどのように機能するかを理解することは、開発者にとってより効率的なコードの作成とパフォーマンスのボトルネックと最適化戦略の理解に役立つためです。 1)エンジンのワークフローには、3つの段階が含まれます。解析、コンパイル、実行。 2)実行プロセス中、エンジンはインラインキャッシュや非表示クラスなどの動的最適化を実行します。 3)ベストプラクティスには、グローバル変数の避け、ループの最適化、constとletsの使用、閉鎖の過度の使用の回避が含まれます。

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1)Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2)Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3)どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

開発環境におけるPythonとJavaScriptの両方の選択が重要です。 1)Pythonの開発環境には、Pycharm、Jupyternotebook、Anacondaが含まれます。これらは、データサイエンスと迅速なプロトタイピングに適しています。 2)JavaScriptの開発環境には、フロントエンドおよびバックエンド開発に適したnode.js、vscode、およびwebpackが含まれます。プロジェクトのニーズに応じて適切なツールを選択すると、開発効率とプロジェクトの成功率が向上する可能性があります。
