Tiktokenチュートリアル:テキストをトークン化するためのOpenai'のPythonライブラリ
粒子分詞は、自然言語処理(NLP)タスクを扱うための基本的なステップです。これには、単語、サブワード、または文字などと呼ばれるマーカーと呼ばれる小さなユニットにテキストを壊すことが含まれます。
効率的な単語セグメンテーションは、言語モデルのパフォーマンスにとって重要であり、テキスト生成、翻訳、抽象化などのさまざまなNLPタスクの重要なステップとなっています。
Tiktokenは、Openaiによって開発された高速で効率的なシソーラスです。テキストをタグに変換するための強力なソリューションとその逆を提供します。その速度と効率性により、大規模なデータセットと複雑なモデルを扱う開発者とデータサイエンティストに最適です。
このガイドは、開発者、データサイエンティスト、およびTiktokenの使用を計画している人を対象としており、例を含む実用的なガイドを必要とする人向けに設計されています。Openaiの基本
Openai APIなどを始めましょう!
今すぐ開始
ライブラリをインポートするには、実行されます
コーディングモデル
<code>pip install tiktoken</code>
Tiktokenのエンコーディングモデルは、テキストをタグに分割するルールを決定します。これらのモデルは、テキストのセグメント化とエンコードの方法を定義し、言語処理タスクの効率と精度に影響するため、重要です。異なるOpenAIモデルは、異なるエンコーディングを使用しています。
Tiktokenは、異なるユースケースに最適化された3つのコーディングモデルを提供します:
- O200K_Base:最新のGPT-4O-MINIモデルのエンコード。
- CL100K_BASE:GPT-4やGPT-3.5-ターボなどの新しいOpenAIモデルのコーディングモデル。
- p50k_base:コードアプリケーションで使用されるコーデックスモデル。
- R50K_Base:GPT-3の異なるバージョンの古いエンコード。
これらのモデルはすべて、OpenAIのAPIで使用できます。 APIは、ここにリストされているモデルよりもはるかに多くのモデルを提供することに注意してください。幸いなことに、Tiktokenライブラリは、どのエンコードをどのモデルで使用するかを簡単に確認する方法を提供します。
たとえば、テキスト埋め込みモデルが使用するエンコーディングモデルを知る必要がある場合、次のコマンドを実行して出力として答えを取得できます。
<code>pip install tiktoken</code>
を取得します。 Tiktokenを直接使用する前に、Openaiにはさまざまな文字列がどのようにトークン化されているかを確認できるトークン化Webアプリケーションがあることに言及したいと思います。ここでアクセスできます。また、非オペナイモデルをサポートするサードパーティのオンラインタガー、Tiktokenizerもあります。
としてエンコードします
tiktokenを使用してタグとしてテキストをエンコードするには、最初にエンコードされたオブジェクトを取得する必要があります。初期化するには2つの方法があります。まず、トークネイザーの名前を使用してこれを行うことができます:
<code>import tiktoken</code>
あるいは、特定のモデルのエンコーダーを取得するために、前述のencoding_for_model関数を実行することができます:
<code>print(tiktoken.encoding_for_model('text-embedding-3-small'))</code>
<code>encoding = tiktoken.get_encoding("[标记器名称]")</code>
マークをテキストにデコードします
マークをテキストにデコードするには、エンコードされたオブジェクトで.decode()メソッドを使用できます。
次のタグ[40、4048、264、2763、505、2956、34955]をデコードしましょう。
これらのマークは、「Datacampから多くのことを学んだ」と解読されます。
<code>encoding = tiktoken.encoding_for_model("[模型名称]")</code>
実用的なユースケースとヒント
エンコードとデコードに加えて、他の2つのユースケースも考えました。
コストの見積もりと管理
Openai APIにリクエストを送信する前にタグカウントを理解することで、コストを効率的に管理するのに役立ちます。 Openaiの請求は、処理されたタグの数に基づいているため、事前にタグ付きテキストを使用すると、API使用量のコストを見積もることができます。 Tiktokenを使用してテキストのタグを計算する方法は次のとおりです。
アレイの長さをチェックして、マークの数を確認する必要があります。事前にタグの数を知ることにより、テキストを短縮するか、予算内にとどまるために使用法を調整するかを決定できます。
<code>print(encoding.encode("我爱 DataCamp"))</code>
入力長検証
APIからOpenAIモデルを使用する場合、マーカーの入力と出力の最大数によって制限されます。これらの制限を超えると、エラーや出力が切り捨てられる可能性があります。 Tiktokenを使用すると、入力の長さを確認し、マーキングの制限に準拠していることを確認できます。
結論
Tiktokenは、Openai言語モデルに合わせて調整された速度と効率を提供するオープンソースのシソーラスです。
Tiktokenを使用してテキストとそのさまざまなコーディングモデルをエンコードおよびデコードする方法を学ぶことで、大規模な言語モデルで作業を大幅に強化できます。
トップAI認定を取得
AIを効果的かつ責任を持って使用できることを証明します。認定され、雇われます
以上がTiktokenチュートリアル:テキストをトークン化するためのOpenai&#x27;のPythonライブラリの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

導入 Openaiは、待望の「Strawberry」アーキテクチャに基づいて新しいモデルをリリースしました。 O1として知られるこの革新的なモデルは、推論能力を強化し、問題を通じて考えられるようになりました

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します
