


Google AudioPaLM は、スピーキングとリスニングの両方に対応する大規模なモデルである「テキスト + オーディオ」デュアルモーダル ソリューションを実装しています。
大規模言語モデルは、その強力なパフォーマンスと多用途性により、オーディオ、ビデオなどの多数のマルチモーダル大規模モデルの開発を推進してきました。
言語モデルの基礎となるアーキテクチャは、主に Transformer と主にデコーダに基づいているため、モデル アーキテクチャをあまり調整せずに他のシーケンス モダリティに適応できます。
最近、Google は統合音声テキスト モデル AudioPaLM をリリースしました。これは、テキストとオーディオ トークンをマルチモーダルな共同語彙にマージし、さまざまなタスク記述タグを組み合わせてデコーダーのトレーニングを実現します。 - 従来から使用される、音声認識 (ASR)、テキスト音声合成、自動音声翻訳 (AST)、音声音声翻訳 (S2ST) などを含む、音声とテキストの混合タスクに関する専用モデル異種混合モデルによって解決されるタスクは、アーキテクチャとトレーニング プロセスに統合されます。
写真
紙のリンク: https://arxiv.org/pdf/2306.12925.pdf
リンクの例: https://google-research.github.io/seanet/audiopalm/examples/
さらに、AudioPaLM の基礎となるアーキテクチャは大規模な Transformer モデルは、テキストで事前トレーニングされた大規模な言語モデルの重みを使用して初期化でき、PaLM などのモデルの言語知識の恩恵を受けることができます。
実装結果の観点から見ると、AudioPaLM は AST および S2ST ベンチマークで最先端の結果を達成しており、ASR ベンチマークでのパフォーマンスは他のモデルと同等です。
AudioLM のオーディオ キューを活用することで、AudioPaLM モデルは、新しい話者の音声移行に対して S2ST を実行でき、音声品質と音声保存の点で既存の方法を上回ります。
AudioPaLM モデルには、トレーニングでは見られない音声入力とターゲット言語の組み合わせに対して AST タスクを実行するゼロショット機能もあります。
AudioPaLM
研究者らは、デコーダ専用の Transformer モデルを使用してテキストと音声トークンをモデル化しました。テキストと音声はモデルに入力される前に処理されています。単語のセグメンテーション。そのため、入力は単なる整数のシーケンスであり、トークン化解除された操作が出力側で実行されてユーザーに返されます。
#画像
音声埋め込みと単語分割
##元のオーディオ波形をトークンに変換するプロセスには、既存の音声表現モデルから埋め込みを抽出し、埋め込みを限られたオーディオ トークンのセットに離散化することが含まれます
前研究では、埋め込みが w2v-BERT モデルから抽出され、k-means によって量子化されました。この論文では、研究者は 3 つのソリューションを実験しました:
w2v-BERT: w2v-BERT を使用します。モデルは純粋な英語ではなく多言語データでトレーニングされ、K 平均法クラスタリングの前に正規化処理は実行されません。そうしないと、多言語環境が発生し、中程度のパフォーマンスが低下します。次に、語彙サイズ 1024
USM-v1 のレート 25Hz でトークンを生成します。より強力な 20 億パラメータのユニバーサル スピーチ モデル (USM) エンコーダを使用して、同様の操作を実行します。中間層から埋め込みを抽出;
USM-v2: 補助的な ASR 損失でトレーニングされ、多言語をサポートするためにさらに微調整されています。
テキスト専用デコーダの変更
Transfomrer デコーダ構造内で、以下を除く入力層と最後のソフトマックス出力層では、モデリング トークンの数は関与しません。PaLM アーキテクチャでは、入力行列と出力行列の重み変数が共有されます。つまり、それらは相互に転置されます。
したがって、純粋なテキスト モデルを両方のテキストをシミュレートできるモデルに変えるには、埋め込み行列のサイズを (t × m) から (t a) × m に拡張するだけで済みます。音声のモデル。t はテキスト語彙のサイズ、a は音声語彙のサイズ、m は埋め込み次元です。
事前トレーニングされたテキスト モデルを活用するために、研究者らは、埋め込み行列に新しい行を追加することで、既存のモデルのチェックポイントを変更しました。
具体的な実装では、最初の t トークンが SentencePiece テキスト タグに対応し、次の a トークンがオーディオ タグを表します。テキスト埋め込みでは事前トレーニングされた重みが再利用されますが、オーディオ埋め込みは新しく初期化されており、トレーニングする必要があります。
実験結果は、ゼロから再トレーニングする場合と比較して、テキストベースの事前トレーニング モデルが音声とテキストのマルチモーダル タスクのパフォーマンスを向上させるのに非常に有益であることを示しています。
オーディオ トークンをネイティブ オーディオにデコードします
オーディオ波形を合成するには研究者らはオーディオ トークンから 2 つの異なる方法をテストしました:
1. AudioLM モデルと同様の自己回帰デコード
2. SoundStorm モデル 非自己回帰デコーディング
両方の方法では、最初に SoundStream トークンを生成し、次に畳み込みデコーダーを使用してそれをオーディオ波形に変換する必要があります。
#研究者らは多言語 LibriSpeech でトレーニングしました。音声条件は 3 秒間の音声サンプルであり、音声トークンと SoundStream トークンとして同時に表現されました
元の入力音声の一部を音声条件として提供することにより、話者の音声を別の言語に翻訳する際に元の話者の音声を保存し、翻訳時に繰り返し再生することで空白時間を埋めることができます。元の音声は 3 秒未満です。
#トレーニング タスク
使用されるトレーニング データ セットは音声テキスト データです:1. オーディオ オーディオ: ソース言語での音声
2. トランスクリプト: 音声データ内の音声の文字起こし
3. 翻訳された音声: 音声内の音声の音声翻訳
##4. 翻訳されたトランスクリプト: 音声内の音声の書面による翻訳
コンポーネント タスクには次のものが含まれます:
1. ASR (自動音声認識): 音声を書き起こして、書き起こされたテキストを取得します
2. AST (自動音声翻訳): 音声を翻訳して、翻訳されたトランスクリプトを取得します。
#3. S2ST (音声間翻訳): 音声を翻訳して、翻訳されたトランスクリプトを取得します。 Audio
4. TTS (Text to Speech): 音声のトランスクリプトを読みます。
5. MT (テキストからテキストへの機械翻訳): 翻訳されたトランスクリプト テキストを取得するためのトランスクリプトの翻訳
データセットは、次の目的で使用される場合があります。複数のタスクがあるため、研究者らは、与えられた入力に対してどのタスクを実行するかをモデルに通知することを選択しました。具体的な方法は、入力の前にラベルを追加し、タスクの英語名と入力言語を指定し、出力言語を指定することもできます。選択されました。
たとえば、モデルでフランス語コーパスに対して ASR を実行する場合、TTS を実行するには、単語分割後の音声入力の前にラベル [ASR French] を追加する必要があります。英語のタスクの場合は、テキストの前にラベルを追加する必要があります [TTS 英語] を追加します。英語からフランス語への S2ST タスクを実行するには、セグメント化後の英語音声の前に [S2ST 英語 フランス語]
## が追加されます。トレーニング ミックス
##研究者らは SeqIO ライブラリを使用してトレーニング データをブレンドし、より大きなデータの重みを軽減しました。セット。
#写真
実験部分写真
AudioPaLM は、AST および S2ST タスクで他のベースライン モデルを上回っており、ASR でのパフォーマンスは最適ではありませんが、効果も非常に優れています。
客観的メトリクス
オーディオ サンプルを指定して、1 の間の非参照 MOS 推定器と同様のものを使用します。知覚されるオーディオ品質の推定値を 5 の範囲で提供します。
言語間での音声伝達の品質を測定するために、研究者らは既製の話者検証モデルを使用し、ソース (SoundStream でエンコード/デコード) と翻訳された音声の間のエンベディングを計算しました。コサイン類似度。ソース オーディオからターゲット オーディオまでの音響特性 (録音条件、バックグラウンド ノイズ) も測定します。主観的評価 研究者らは、生成された音声の品質と音声の類似性を評価するために 2 つの独立した研究を実施しました。サンプルセット。 コーパスの品質が不均一であるため、一部には、大音量で重複する音声 (たとえば、バックグラウンドで再生されているテレビ番組や歌) や、非常に強いノイズ (たとえば、衣服が擦れる音) が含まれています。マイクなど))、同様の歪み効果は人間の評価者の作業を複雑にするため、研究者らは、MOS 推定値が少なくとも 3.0 の入力のみを選択することでプレフィルタリングすることにしました。 評価は、1 (低品質、またはまったく異なるサウンド) から 5 (高品質、同じサウンド) の範囲の 5 段階スケールで提供されます。 結果から、AudioPaLM はオーディオに関して客観的測定と主観的測定の両方で優れたパフォーマンスを発揮していることがわかります。品質と音声の類似性: どちらもベースラインの Translatotron 2 システムよりも大幅に優れており、AudioPaLM は CVSS-T の実際の合成録音よりも高品質で音声の類似性が高く、ほとんどの指標で比較的大きな改善が見られます。 研究者らはまた、リソースの高いグループとリソースの少ないグループ (フランス語、ドイツ語、スペイン語、カタロニア語と他の言語) のシステムを比較し、これらのグループ間に有意な差がないことを発見しました。インジケーターで。 写真
以上がGoogle AudioPaLM は、スピーキングとリスニングの両方に対応する大規模なモデルである「テキスト + オーディオ」デュアルモーダル ソリューションを実装しています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











この記事では、OUYI OKEXアカウントの登録、使用、キャンセル手順を詳細に紹介します。登録するには、アプリをダウンロードし、携帯電話番号または電子メールアドレスを入力して登録する必要があります。使用法は、ログイン、リチャージ、引き出し、取引、セキュリティ設定などの操作手順をカバーします。アカウントをキャンセルするには、OUYI Okexカスタマーサービスに連絡し、必要な情報を提供し、処理を待つ必要があり、最後にアカウントキャンセルの確認を取得する必要があります。 この記事を通じて、ユーザーはOUYI OKEXアカウントの完全なライフサイクル管理を簡単に習得し、デジタルアセットトランザクションを安全かつ便利に実施できます。

Jieba Wordセグメンテーションを最適化して、風光明媚なスポットコメントのキーワード抽出を改善する方法は? Jieba Wordセグメンテーションを使用して風光明媚なスポットコメントデータを処理する場合、単語セグメンテーションの結果が無視されている場合...

仮想通貨の「最古」のランキングは次のとおりです。1。Bitcoin(BTC)は、2009年1月3日に発行され、最初の分散型デジタル通貨です。 2。2011年10月7日にリリースされたLitecoin(LTC)は、「ビットコインの軽量バージョン」として知られています。 3。2011年に発行されたRipple(XRP)は、国境を越えた支払い用に設計されています。 4。2013年12月6日に発行されたDogecoin(Doge)は、Litecoinコードに基づいた「Meme Coin」です。 5。2015年7月30日にリリースされたEthereum(ETH)は、スマートコントラクトをサポートする最初のプラットフォームです。 6。2014年に発行されたTether(USDT)は、米ドル1:1に固定された最初のスタブコインです。 7。アダ、

さまざまなブラウザの下でのWebide Directory Treesのレンダリングの違いについて、この記事では、Google ChromeとFirefoxのWebの名前の変更を検討します...

H5展開ビデオメディアの取得問題の処理H5アプリケーションの展開時に処理すると、特にNavigator.mediを使用する場合、ページビデオメディアの取得で問題に遭遇することがあります。

GoogleとMicrosoft Authenticatorsが2要素認証を使用する際にHotPアルゴリズムをサポートするかどうかについての議論では、GoogleとMicrosoftを使用することがよくあります...

OUYI Webバージョンの引き出しプロセス:アカウントにログインし、アセットページを入力し、引き出し通貨と方法(オンチェーンまたはフィアット通貨)を選択します。オンチェーンの引き出しは、正しい引き出しアドレスとマッチングネットワークに記入する必要があり、フィアット通貨の引き出しは銀行口座に拘束する必要があります。セキュリティ検証を完了したら申請書を提出し、レビューが到着するのを待ちます。住所、ネットワーク、その他の情報を確認し、取り扱い手数料と最低引き出し額に注意してください。

さまざまな複雑な取引ツールと市場分析を提供します。 100か国以上をカバーし、1日の平均デリバティブ取引量は300億米ドルを超え、300を超える取引ペアと200倍のレバレッジをサポートし、強力な技術的強さ、巨大なグローバルユーザーベース、専門的な取引プラットフォーム、安全なストレージソリューション、豊富な取引ペアを提供します。
