Openaiプラットフォームvs Finetuning LLM用のGoogle AI Studio-AI-php.cn

Openaiプラットフォーム

データの準備

コード実装

Openaiプラットフォームでの微調整

Google AI Studio

データアップロード

AIスタジオでの微調整

結論

よくある質問

ホームページ

テクノロジー周辺機器

Openaiプラットフォームvs Finetuning LLM用のGoogle AI Studio

Jennifer Aniston

Mar 31, 2025 pm 03:13 PM

大型言語モデル（LLMS）の微調整は、特定の執筆スタイルを採用したり、特定のドメインに焦点を当てるなど、特定のニーズに合わせてLLMをカスタマイズするための不可欠な手法です。 OpenaiとGoogle AI Studioは、この目的のためのツールを提供する2つの主要なプラットフォームであり、それぞれに明確な機能とワークフローがあります。この記事では、以前に書かれた記事をトレーニングデータとして使用して、これらのプラットフォームが微調整されたタスクでどのように機能するかを調べます。 OpenaiプラットフォームとGoogle AI StudioがLLMSを微調整する能力を評価して、私の執筆スタイルを反映するコンテンツを生成します。

Openaiプラットフォーム

OpenAIプラットフォームは、微調整モデル向けの包括的なソリューションを提供し、ユーザーが特定のタスクに合わせてカスタマイズおよび最適化できるようにします。このプラットフォームは、GPT-4OやGPT-4O-MINIを含むさまざまなモデルをサポートしています。 Openaiは、データの準備、モデルトレーニング、評価のガイダンスも提供します。 OpenAIプラットフォームを活用することにより、ユーザーは特定のドメインのモデルのパフォーマンスを強化できます。これにより、ターゲットを絞ったアプリケーションに対してより効果的かつ効率的になります。

微調整のコストは次のとおりです。

モデル	価格設定
GPT-4O-2024-08-06	$ 3.750 / 1M入力トークン $ 15.000 / 1M出力トークン $ 25.000 / 1mのトレーニングトークン
GPT-4O-MINI-2024-07-18	$ 0.300 / 1M入力トークン $ 1.200 / 1M出力トークン $ 3.000 / 1mのトレーニングトークン

微調整されたモデルの推論のコストは、既存のモデルの2倍です。

データの準備

LLMは、微調整のために特定の形式でデータを作成する必要があります。これは、GPT-4OおよびGPT-4O-MINIモデルの例です。

 {"Messages"：[{"role"： "system"、 "content"： "marvは、皮肉な事実のチャットボットです。"}、{"rofis"： "user"、 "content"： "" lole "：" assistant "、" content "：" paris、 "}]

ログイン後にコピー

モデルを微調整すると、特定のユーザーロールコンテンツのアシスタントロールコンテンツと同様の応答を作成することが学習されます。

モデルに私たちのコンテンツに似たコンテンツを作成することを望んでいるので、アシスタントコンテンツの代わりにコンテンツを使用する必要があります。

私の記事の1つからこのコンテンツを考えてみましょう。

「したがって、HNSWを使用してグラフを使用してすべてのノードを通過するのではなく、このアルゴリズムの動的なVantage Pointツリーを使用して検索空間をローカリングしています。

ツリーとグラフの両方を使用するこの組み合わせにより、最速かつ最も正確なアルゴリズムの1つになります。」

LLMに上記のようなコンテンツを生成する必要があるため、次のようなアシスタントコンテンツとして追加する必要があります。

 {"role"： "Assistant"、 "content"： "HNSWを使用してグラフを使用してすべてのノードを通過するのではなく、このアルゴリズムのダイナミックvantage Pointツリーを使用して検索スペースをローカリングしています。

ログイン後にコピー

ツリーとグラフの両方を使用するこの組み合わせにより、最速かつ最も正確なアルゴリズムの1つになります。 "}

ログイン後にコピー

LLMがこのようなコンテンツを生成するには、ユーザーコンテンツが必要です（つまり、プロンプト）。持っていないため、LLMを使用してユーザーコンテンツを生成できます。ユーザーコンテンツは次のとおりです。

 {"role"： "user"、 "content"： "動的な視点の木と階層的な航行可能な小さな世界（HNSW）グラフの組み合わせが、アルゴリズムの検索効率と精度を改善する方法を説明できますか？"}

ログイン後にコピー

また、適切なシステムプロンプトを含めて、微調整の例は次のとおりです。

 {"Messages"：[{"role"： "system"、 "content"： "あなたは、明確で有益な、魅力的なスタイルで書くアシスタントです。"}、{"rofis"： "user"、 "content"： "ダイナミックな景色の樹木と階層航海可能な小さな世界（HNSW）の組み合わせがどのように説明できますか？ 「アシスタント」、「コンテンツ」：「HNSWを使用してグラフを使用してすべてのノードを通過するのではなく、このアルゴリズムの動的なvantage Pointツリーを使用して検索空間をローカリングしています。

ログイン後にコピー

少量のコンテンツを使用すると、モデルがコンテキストを見逃す可能性があります。データの準備中はこれを念頭に置いておく必要があります。ここでは38の例しか使用していませんが、100〜500の例ははるかに優れています。「my content.csv」ファイルを作成しました。各行には、列名「コンテンツ」の下にコンテンツが書かれています。

次に、コードを使用して、必要なデータを適切な形式で作成しましょう。

コード実装

Openaiバージョン1.57.0はここで使用されています。

1.ライブラリをインポートします。

 dotenvインポートload_dotenvから
load_dotenv（ '/。Env'）
PDとしてパンダをインポートします
Tiktokenをインポートします
Openai Import Openaiから

ログイン後にコピー

＃openaiクライアントを初期化します
client = openai（）

ログイン後にコピー

2.トークンのサイズを確認します。

 df = pd.read_csv（ 'my content.csv'）
encoding = tiktoken.get_encoding（ 'o200k_base'）

total_token_count = 0
df ['content']のiの場合：
    token_count = len（encoding.encode（i））
    total_token_count = token_count

ログイン後にコピー

トークンをカウントすると、微調整のコストを見積もるのに役立ちます。

3. LLMのユーザーコンテンツを生成します。

 def generate_user_content（Assistant_response）：
    
    ＃System_Message = {"role"： "system"、 "content"： "あなたは役立つアシスタントです。あなたのタスクは、アシスタントの応答に基づいてユーザークエリを生成することです。"}
    
    system_message = {"role"： "system"、 "content"： "" "アシスタントの応答を与えられた場合、ユーザークエリを作成するか、 
    論理的にその応答につながる声明。 
    ユーザーのコンテンツは、質問や明確化のリクエストの形であり、 
    提供された回答を与えるアシスタント "" "}
    
    
    Assistant_message = {"role"： "Assistant"、 "content"：Assistant_response}
    メッセージ= [System_Message、Assistant_message]

    Response = client.chat.completions.create（
        メッセージ=メッセージ、
        Model = "gpt-4o-mini"、
        温度= 1
    ））

    user_content = response.choices [0] .message.content
    user_contentを返します

ログイン後にコピー

ご覧のとおり、アシスタントコンテンツとして書いたコンテンツを提供し、LLMにユーザーコンテンツを生成するように依頼しました。

 user_contents = []

df ['content']のiの場合：
    user_content = generate_user_content（i）
    user_contents.append（user_content）
    
df ['user_content'] = user_contents

ログイン後にコピー

生成されたユーザーコンテンツを列としてデータフレームに追加できます。データは次のようになります：

Openaiプラットフォームvs Finetuning LLM用のGoogle AI Studio

ここでは、コンテンツは私によって書かれており、user_contentはLLMによって生成され、微調整中にユーザーロールコンテンツ（プロンプト）として使用されます。

今すぐファイルを保存できます。

 df.to_csv（ 'user_content.csv'、index = false）

ログイン後にコピー

4. JSONLファイルを作成します。

これで、上記のCSVファイルを使用して、微調整に必要に応じてJSONLファイルを作成できます。

メッセージ= pd.read_csv（ 'user_content.csv'）
messages.rename（columns = {'content'： 'Assistant_content'}、inplace = true）

with open（ 'messages_dataset.jsonl'、 'w'、encoding = 'utf-8'）as jsonl_file：
    
    _、messages.iterrows（）のrowe（）：
        
        user_content = row ['user_content']
        Assistant_Content = row ['Assistant_Content']

        jsonl_entry = {
            「メッセージ」：[
                {「役割」：「システム」、「コンテンツ」：「あなたは、明確で有益で魅力的なスタイルで書くアシスタントです。 "}、
                {「役割」：「user "、" content "：user_content}、
                {「役割」：「アシスタント」、「コンテンツ」：Assistant_Content}]]
        }

        jsonl_file.write（json.dumps（jsonl_entry） '\ n'）

ログイン後にコピー

上記のように、データフレームを繰り返してJSONLファイルを作成できます。

Openaiプラットフォームでの微調整

これで、「messages_dataset.jsonl」を使用してOpenai LLMSを微調整できます。

すでにサインインしていない場合は、ウェブサイトにアクセスしてサインインします。

Openaiプラットフォームvs Finetuning LLM用のGoogle AI Studio

微調整ジョブがない場合、インターフェイスは次のとおりです。

「詳細」をクリックして、調整可能なハイパーパラメーターを含む微調整に必要なすべての詳細を学習することができます。

それでは、Openaiプラットフォームでモデルを微調整する方法を学びましょう。

「作成」をクリックします。小さな窓が開きます。

Openaiプラットフォームvs Finetuning LLM用のGoogle AI Studio

「監視」としてメソッドを選択します
「GPT-4O」または「GPT-4O-MINI」としてベースモデルを選択します。 GPT-4O-MINIを使用しているときにエラーが発生したため、GPT-4Oを使用しました。
JSONLファイルをアップロードします。
微調整するジョブに関連する「接尾辞」を追加します
再現性のために任意の数値を「シード」として使用します。
ハイパーパラメーターを選択し、デフォルト値を使用するようにしておきます。それらの選択に関するガイドラインについては、上記のドキュメントを参照してください。

これで、「作成」をクリックして微調整を開始できます。

微調整が完了すると、次のように表示されます。

Openaiプラットフォームvs Finetuning LLM用のGoogle AI Studio

右ボトムコーナーのボタンをクリックすると、微調整されたモデルを遊び場で既存のモデル応答と比較できます。

以下は、両方のモデルを比較する回答の例です。

Openaiプラットフォームvs Finetuning LLM用のGoogle AI Studio

ご覧のとおり、両方のモデルの応答には大きな違いがあります。

より多くの例を使用すると、結果が改善される可能性があります。

それでは、Google AI Studioについて学びましょう。

Google AI Studio

Google AI Studioは、Gemini LLMSを使用してアプリケーションを構築するためのWebベースのツールです。また、ユーザーは自分のデータを使用してLLMを微調整することもできます。このカスタマイズにより、特定のタスクまたは業界のモデルのパフォーマンスが向上し、関連性が高く効果的になります。 Gemini Modelsの微調整機能は新しく発売されており、現在Gemini 1.5 Flashのみで利用可能です。チューニングは2025年1月の時点で無料であり、推論のコストは既存のモデルと同じです。

詳細：GoogleのAIスタジオ：ジェミニの創造的な宇宙へのゲートウェイ！

データアップロード

Geminiモデルの場合、データ形式は次のとおりです。

 training_data = [<br><br> {"text_input"： "1"、 "output"： "2"}、<br><br> {"text_input"： "3"、 "output"： "4"}、]

ログイン後にコピー

Google AI Studioは、CSVファイルからデータをアップロードするためのGUI（グラフィカルユーザーインターフェイス）を提供します。これを行うには：

https://aistudio.google.com/prompts/new_dataを開きます
「アクション」をクリックしてから、「インポート例」をクリックします。
次に、CSVファイルをアップロードします。画面は次のようになります：

Openaiプラットフォームvs Finetuning LLM用のGoogle AI Studio

user_contentを入力列として、コンテンツを出力列として割り当てます。
次に、例をインポートします。不要な列を削除してから、右上隅の「保存」ボタンを使用してデータを保存できます。

AIスタジオでの微調整

モデルを微調整するには、https：//aistudio.google.com/tuneにアクセスしてください。

画面は次のようになります：

Openaiプラットフォームvs Finetuning LLM用のGoogle AI Studio

次に、以下の手順に従ってください。

ドロップダウンメニューからインポートされたデータを選択します。
チューニングモデルに名前を付けます。
高度な設定の詳細については、https：//ai.google.dev/gemini-api/docs/model-tuningを参照してください。
完了したら、「チューニング」をクリックします。

次のように、「ライブラリ」で調整されたモデルを見つけることができます。

Openaiプラットフォームvs Finetuning LLM用のGoogle AI Studio

上記の画像に示すように、チャットでモデルを使用することもできます。

結論

OpenAIプラットフォームとGoogle AI Studioを使用した大規模な言語モデルを微調整すると、ユーザーは特定のニーズに合わせてモデルを調整できます。これは、LLMにユニークなライティングスタイルを採用するか、ドメイン固有のパフォーマンスを向上させることです。どちらのプラットフォームも、データの準備とトレーニングのための直感的なワークフローを提供し、モデルの動作を最適化するための構造化された形式をサポートします。アクセス可能なツールと明確なドキュメントにより、ユーザーはLLMSの可能性を最大限に引き出して、目的のタスクや目標に密接に合わせてロックを解除できるようにします。

よくある質問

Q1。大規模な言語モデル（LLMS）のコンテキストでは微調整とは何ですか？

A.微調整とは、特定のタスク、スタイル、またはドメインに動作を適応させるために、カスタムデータに関する事前に訓練された言語モデルをトレーニングするプロセスです。これには、ユーザー要件と整合したモデルの応答をガイドするために、入出力ペアの例を提供することが含まれます。

Q2。 OpenaiプラットフォームとGoogle AI Studioでの微調整には、どのようなデータ形式が必要ですか？

A. OpenAIプラットフォームには、構造化されたJSONL形式のデータが必要です。通常は、「システム」、「ユーザー」、「アシスタント」などの役割を備えています。 Google AI Studioは、「text_input」および「output」フィールドを備えたよりシンプルな形式を使用します。ここでは、入力と目的の出力が明確に定義されています。

Q3。効果的な微調整にはどのくらいのデータが必要ですか？

A. 30〜50の例を備えた小さなデータセットにはいくつかの結果が表示される場合がありますが、100〜500の例を備えたより大きなデータセットは、一般に、モデルに多様でコンテキストが豊富なシナリオを提供することで、より良いパフォーマンスをもたらします。

Q4。微調整のコストは、OpenaiプラットフォームとGoogle AI Studioをどのように比較しますか？

A.トレーニング中のトークンの使用に基づく微調整のためのOpenai料金、より大きなモデルのコストが高くなります。 Google AI Studioは現在、Gemini 1.5 Flashモデルの無料微調整を提供しており、実験に費用対効果の高い選択肢となっています。

Q5。 LLMを微調整することの主な利点は何ですか？

A.微調整により、ユーザーは、特定のトーンやスタイルでコンテンツを生成する、ドメイン固有のタスクの精度を向上させるなど、特定の要件に合わせてモデルをカスタマイズでき、モデルを意図したユースケースにより関連させることにより、ユーザーエクスペリエンス全体を強化できます。

以上がOpenaiプラットフォームvs Finetuning LLM用のGoogle AI Studioの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。