bytedanceはAIビデオを吹き飛ばしました！ -Omnihuman 1-AI-php.cn

ホームページ

テクノロジー周辺機器

bytedanceはAIビデオを吹き飛ばしました！ -Omnihuman 1

Jennifer Aniston

Mar 06, 2025 pm 12:09 PM

bytedanceの画期的なOmnihuman-1フレームワークは、人間のアニメーションに革命をもたらします！最近の研究論文で詳述されているこの新しいモデルは、拡散変圧器アーキテクチャを活用して、単一の画像とオーディオ入力から非常に現実的な人間のビデオを生成します。複雑なセットアップを忘れてください - Omnihumanはプロセスを簡素化し、優れた結果を提供します。詳細に飛び込みましょう。

既存のアニメーションモデルの制限
オムニフマン-1ソリューション：マルチモーダルアプローチ
サンプルOmnihuman-1ビデオ
モデルのトレーニングとアーキテクチャ
Omni-Conditionsトレーニング戦略
実験的検証とパフォーマンス
アブレーション研究：トレーニングプロセスの最適化
拡張された視覚的結果：汎用性の実証
結論

既存の人間のアニメーションモデルの制限

現在の人間のアニメーションモデルは、しばしば制限に苦しんでいます。彼らは頻繁に小規模で専門のデータセットに依存しており、その結果、低品質で柔軟性のないアニメーションが生まれます。多くの人は、さまざまな文脈を越えて一般化に苦しんでおり、リアリズムと流動性が欠けています。単一の入力モダリティ（例えば、テキストまたは画像のみ）に依存することは、人間の動きと表現のニュアンスを捉える能力を厳しく制限します。

オムニフマン-1ソリューション

Omnihuman-1は、マルチモーダルアプローチでこれらの課題に真正面から取り組んでいます。テキスト、オーディオ、ポーズ情報をコンディショニングシグナルとして統合し、コンテキストでリッチで現実的なアニメーションを作成します。革新的なOmni-Conditions Designは、参照画像からサブジェクトのアイデンティティと背景の詳細を保持し、一貫性を確保します。ユニークなトレーニング戦略により、データの利用が最大化され、過剰適合とパフォーマンスの向上を防ぎます。

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

サンプルomnihuman-1ビデオ

Omnihuman-1は、単なる画像とオーディオから現実的なビデオを生成します。多様な視覚的スタイルとオーディオスタイルを処理し、あらゆるアスペクト比と身体の割合でビデオを作成します。結果のアニメーションは、詳細な動き、照明、テクスチャを誇っています。（注：Brevityのために参照画像は省略されていますが、リクエストに応じて利用できます。）

話す

ブラウザはビデオタグをサポートしていません。

歌う

ブラウザはビデオタグをサポートしていません。

多様性

ブラウザはビデオタグをサポートしていません。

手を持つハーフボディケース

ブラウザはビデオタグをサポートしていません。

モデルトレーニングとアーキテクチャOmnihuman-1のトレーニングは、マルチコンディション拡散モデルを活用しています。コアは、事前に訓練された海藻モデル（MMDITアーキテクチャ）で、最初は一般的なテキストビデオペアでトレーニングされています。これは、テキスト、オーディオ、ポーズ信号を統合することにより、人間のビデオ生成に適合します。因果的な3Dバリエーションオートエンコーダー（3DVAE）は、効率的な除去のための潜在的な空間にビデオをプロジェクトにします。アーキテクチャは、除去プロセスを巧みに再利用して、参照画像から主題のアイデンティティと背景を保持します。

モデルアーキテクチャ図

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1 Omni-Conditionsトレーニング戦略

この3段階のプロセスは、拡散モデルを徐々に改良します。モーション相関強度（弱いものから強い）に基づいて、コンディショニングモダリティ（テキスト、オーディオ、ポーズ）を連続的に導入します。これにより、各モダリティからのバランスの取れた貢献が保証され、アニメーションの品質が最適化されます。オーディオコンディショニングは、機能抽出にWAV2VECを使用し、ポーズコンディショニングはポーズヒートマップを統合します。

実験的検証とパフォーマンス

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

この論文は、大規模なデータセット（18.7k時間の人間関連データ）を使用した厳格な実験的検証を示しています。 Omnihuman-1は、さまざまなメトリック（IQA、ASE、SYNC-C、FID、FVD）にわたって既存のメソッドを上回り、異なる入力構成の処理において優れたパフォーマンスと汎用性を示します。

アブレーション研究：トレーニングプロセスの最適化

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1 アブレーション研究では、モダリティごとに異なるトレーニングデータ比の影響を調査します。オーディオとポーズデータの最適な比率を明らかにし、リアリズムとダイナミックレンジのバランスを取ります。この研究では、アイデンティティと視覚的忠実度を維持するための十分な参照画像比の重要性も強調しています。視覚化は、さまざまなオーディオとポーズ条件の比率の影響を明確に示しています。

拡張された視覚的結果：汎用性の実証

拡張された視覚結果は、さまざまなスタイル、オブジェクトの相互作用、ポーズ駆動型シナリオを処理する能力を強調して、多様で高品質のアニメーションを生成するOmnihuman-1の能力を示しています。 ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1