ホームページ テクノロジー周辺機器 AI bytedanceはAIビデオを吹き飛ばしました! -Omnihuman 1

bytedanceはAIビデオを吹き飛ばしました! -Omnihuman 1

Mar 06, 2025 pm 12:09 PM

bytedanceの画期的なOmnihuman-1フレームワークは、人間のアニメーションに革命をもたらします! 最近の研究論文で詳述されているこの新しいモデルは、拡散変圧器アーキテクチャを活用して、単一の画像とオーディオ入力から非常に現実的な人間のビデオを生成します。 複雑なセットアップを忘れてください - Omnihumanはプロセスを簡素化し、優れた結果を提供します。 詳細に飛び込みましょう。

目次

  • 既存のアニメーションモデルの制限
  • オムニフマン-1ソリューション:マルチモーダルアプローチ
  • サンプルOmnihuman-1ビデオ
  • モデルのトレーニングとアーキテクチャ
  • Omni-Conditionsトレーニング戦略
  • 実験的検証とパフォーマンス
  • アブレーション研究:トレーニングプロセスの最適化
  • 拡張された視覚的結果:汎用性の実証
  • 結論

既存の人間のアニメーションモデルの制限

現在の人間のアニメーションモデルは、しばしば制限に苦しんでいます。 彼らは頻繁に小規模で専門のデータセットに依存しており、その結果、低品質で柔軟性のないアニメーションが生まれます。 多くの人は、さまざまな文脈を越えて一般化に苦しんでおり、リアリズムと流動性が欠けています。 単一の入力モダリティ(例えば、テキストまたは画像のみ)に依存することは、人間の動きと表現のニュアンスを捉える能力を厳しく制限します。

オムニフマン-1ソリューション

Omnihuman-1は、マルチモーダルアプローチでこれらの課題に真正面から取り組んでいます。テキスト、オーディオ、ポーズ情報をコンディショニングシグナルとして統合し、コンテキストでリッチで現実的なアニメーションを作成します。 革新的なOmni-Conditions Designは、参照画像からサブジェクトのアイデンティティと背景の詳細​​を保持し、一貫性を確保します。ユニークなトレーニング戦略により、データの利用が最大化され、過剰適合とパフォーマンスの向上を防ぎます。

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

サンプルomnihuman-1ビデオ

Omnihuman-1は、単なる画像とオーディオから現実的なビデオを生成します。多様な視覚的スタイルとオーディオスタイルを処理し、あらゆるアスペクト比と身体の割合でビデオを作成します。 結果のアニメーションは、詳細な動き、照明、テクスチャを誇っています。 (注:Brevityのために参照画像は省略されていますが、リクエストに応じて利用できます。)

話す

ブラウザはビデオタグをサポートしていません。

歌う

ブラウザはビデオタグをサポートしていません。

多様性

ブラウザはビデオタグをサポートしていません。

手を持つハーフボディケース

ブラウザはビデオタグをサポートしていません。

モデルトレーニングとアーキテクチャOmnihuman-1のトレーニングは、マルチコンディション拡散モデルを活用しています。 コアは、事前に訓練された海藻モデル(MMDITアーキテクチャ)で、最初は一般的なテキストビデオペアでトレーニングされています。 これは、テキスト、オーディオ、ポーズ信号を統合することにより、人間のビデオ生成に適合します。 因果的な3Dバリエーションオートエンコーダー(3DVAE)は、効率的な除去のための潜在的な空間にビデオをプロジェクトにします。 アーキテクチャは、除去プロセスを巧みに再利用して、参照画像から主題のアイデンティティと背景を保持します。

モデルアーキテクチャ図

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1Omni-Conditionsトレーニング戦略

この3段階のプロセスは、拡散モデルを徐々に改良します。 モーション相関強度(弱いものから強い)に基づいて、コンディショニングモダリティ(テキスト、オーディオ、ポーズ)を連続的に導入します。これにより、各モダリティからのバランスの取れた貢献が保証され、アニメーションの品質が最適化されます。 オーディオコンディショニングは、機能抽出にWAV2VECを使用し、ポーズコンディショニングはポーズヒートマップを統合します。

実験的検証とパフォーマンス

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

この論文は、大規模なデータセット(18.7k時間の人間関連データ)を使用した厳格な実験的検証を示しています。 Omnihuman-1は、さまざまなメトリック(IQA、ASE、SYNC-C、FID、FVD)にわたって既存のメソッドを上回り、異なる入力構成の処理において優れたパフォーマンスと汎用性を示します。

アブレーション研究:トレーニングプロセスの最適化

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1アブレーション研究では、モダリティごとに異なるトレーニングデータ比の影響を調査します。 オーディオとポーズデータの最適な比率を明らかにし、リアリズムとダイナミックレンジのバランスを取ります。 この研究では、アイデンティティと視覚的忠実度を維持するための十分な参照画像比の重要性も強調しています。 視覚化は、さまざまなオーディオとポーズ条件の比率の影響を明確に示しています。

拡張された視覚的結果:汎用性の実証

拡張された視覚結果は、さまざまなスタイル、オブジェクトの相互作用、ポーズ駆動型シナリオを処理する能力を強調して、多様で高品質のアニメーションを生成するOmnihuman-1の能力を示しています。 ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

結論

Omnihuman-1は、人間のビデオ生成において大きな前進を表しています。 Limited Inputとそのマルチモーダル機能からリアルなアニメーションを作成する能力により、本当に驚くべき成果になります。 このモデルは、デジタルアニメーションの分野に革命をもたらす態勢が整っています。

以上がbytedanceはAIビデオを吹き飛ばしました! -Omnihuman 1の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Meta Llama 3.2を始めましょう - 分析Vidhya Meta Llama 3.2を始めましょう - 分析Vidhya Apr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

10生成AIコーディング拡張機能とコードのコードを探る必要があります 10生成AIコーディング拡張機能とコードのコードを探る必要があります Apr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5など AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5など Apr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

従業員へのAI戦略の販売:Shopify CEOのマニフェスト 従業員へのAI戦略の販売:Shopify CEOのマニフェスト Apr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

ビジョン言語モデル(VLM)の包括的なガイド ビジョン言語モデル(VLM)の包括的なガイド Apr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

GPT-4o vs Openai O1:新しいOpenaiモデルは誇大広告に値しますか? GPT-4o vs Openai O1:新しいOpenaiモデルは誇大広告に値しますか? Apr 13, 2025 am 10:18 AM

導入 Openaiは、待望の「Strawberry」アーキテクチャに基づいて新しいモデルをリリースしました。 O1として知られるこの革新的なモデルは、推論能力を強化し、問題を通じて考えられるようになりました

SQLに列を追加する方法は? - 分析Vidhya SQLに列を追加する方法は? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

最高の迅速なエンジニアリング技術の最新の年次編集 最高の迅速なエンジニアリング技術の最新の年次編集 Apr 10, 2025 am 11:22 AM

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

See all articles