Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる
人工知能の爆発的な普及により、私たちの時間の感覚が歪められています。
Stable Diffusion が誕生してまだ 4 か月しか経っていないのに、ChatGPT が存在してから 1 か月も経っていないなんて信じられますか?
鮮やかな比喩を使うと、まばたきをしている限り、まったく新しい業界を見逃すことになります。
2022 年の AI 分野では、大規模な生成モデルが雨後の筍のように出現し、AI 業界全体の状況を一変させました。
さらに、これらのモデルは急速に実験室から出て、現実に適用されつつあります。
たとえば、LLM テクノロジーは、意思決定エージェント (ゲーム、ロボットなど) と AI4Science という 2 つの新興分野に影響を与えました。
リー・フェイフェイの弟子であるジム・ファンが、2022 年の AI のハイライト瞬間トップ 10 をまとめました。時計の針を戻して、2022 年に AI がどのような驚くべき進歩を遂げるのかを見てみましょう。
1. テキスト画像の生成
DALLE-2 は、あらゆるタイトルからリアルな高解像度画像を生成する最初のツールです。 - 画像のスケール拡散モデル。
これは AI に芸術的な革命を引き起こし、多くの新しいアプリケーション、スタートアップ、考え方を生み出しました。
しかし、DALLE-2 は OpenAI の壁の後ろで保護されており、オープンソースではありません。
OpenAI の後、LMU の StabilityAI と runwayml は英雄的な一歩を踏み出し、「潜在的な拡散」アルゴリズムに基づいて独自のインターネット スケールの text2image モデルをトレーニングしました。彼らはこのモデルを「安定拡散」と呼び、コードと重みをオープンソース化しています。
事実は、Stable Diffusion のオープン性がゲームに大きな変化をもたらしたことを証明しています。
現在、多くのスタートアップや研究機関が Stable Diffusion に基づいて新しいアプリケーションを作成しており、Stable Diffusion 自体はオープンソース コミュニティによって継続的に改善されています。
最近、Stable Diffusion が v2.1 になり、単一の GPU で実行できるようになりました。
さらに、今年は GoogleAI から 2 つの image2text モデルが登場しました。 GoogleAI はモデルも API もリリースしていませんが、論文から多くの興味深い洞察を得ることができます。
Imagen
https://imagen.research.google
Parti
https://parti.research.google.ディフュージョン無しのトランスフォーマーモデルです。
VIMA
10 月に、同僚と私は、「ロボット GPT」、つまり VIMA という名前の変圧器を作成しました。 混合テキスト、画像、ビデオをプロンプトとして受信し、ロボット アームの制御を出力できます。 私たちのモデルは VIMA (「VisuoMotor Attendance」) と呼ばれ、完全にオープンソースです。 現在、モデル容量とデータの強力なスケーラビリティにより、単一のエージェントが視覚的なターゲット、ビデオの 1 回限りの模倣、新しいコンセプトの基礎、視覚的な制約などを解決できるようになりました。RT-1
VIMA と同様の道をたどって、GoogleAI の研究者は 700 のタスクで訓練されたロボット トランスフォーマーである RT-1 をリリースしました。 13万人の人間によるデモ。 このデータは、文字通り鋼鉄の軍隊である 13 台のロボットによって 17 か月にわたって収集されました。4. テキストビデオ
本質的に、ビデオは時間をかけて結び付けられた一連の画像であり、動きの錯覚を生み出します。 。
text2image を実行できるのであれば、タイムラインを追加してさらに楽しんでみてはいかがでしょうか?
現在、テキストからビデオへの分野には 3 つの主要な作品がありますが、どれもオープンソースではありません。
Make-A-Video
1 つ目は Meta AI の Make-A-Video です。ペアになったテキストビデオ データは必要なく、テキストビデオを取得できます。世代。
ここからトライアルアクセスにサインアップできます: https://makeavevideo.studio
紙のリンク: https://arxiv.org/abs / 2209.14792
Phenaki
Google AI の Phenaki: オープン ドメインのテキスト説明から可変長の動画を生成します。 デモ: https://phenaki.videoDreamFusion
最初に登場するのは、Google AI 研究チームとカリフォルニア大学バークレー校が共同開発した DreamFusion です。Magic3D
2 番目の結果は、GET3D と Magic3D という名前の NVIDIA AI チームの 2 つのプロジェクトです。
Point-E
今年の初めに発売された DALL-E 2 がその天才的なブラシで誰もを驚かせた後、OpenAI は最新の画像生成モデル「POINT- E」は火曜日に、テキストから直接 3D モデルを生成できます。では、AIは人間と同じように想像力を発揮できるのでしょうか?
Jim Fan と同僚は協力して、自然言語プロンプトの下で多くのタスクを解決できる、「Minecraft」をプレイするための初の AI、「MineDojo」を開発しました。
論文リンク: https://arxiv.org/pdf/2206.08853.pdf
ファンの最終目標は、「具体化された ChatGPT」を構築することです。現在、MineDojo プラットフォームは完全にオープンソースです。
同時に、Jeff Clune 氏のチームは、キーボードとマウスの動きを直接出力できる Video Pre-Training (VPT) と呼ばれるモデルを発表しました。
論文リンク: https://arxiv.org/pdf/2206.11795.pdf
VPT にはより広い視野がありますが、それは言語条件によって制限されません。現時点では、MineDojo と VPT は相互に補完します。
参照:
https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw
以上がLi Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











CのDMAとは、直接メモリアクセステクノロジーであるDirectMemoryAccessを指し、ハードウェアデバイスがCPU介入なしでメモリに直接データを送信できるようにします。 1)DMA操作は、ハードウェアデバイスとドライバーに大きく依存しており、実装方法はシステムごとに異なります。 2)メモリへの直接アクセスは、セキュリティリスクをもたらす可能性があり、コードの正確性とセキュリティを確保する必要があります。 3)DMAはパフォーマンスを改善できますが、不適切な使用はシステムのパフォーマンスの低下につながる可能性があります。実践と学習を通じて、DMAを使用するスキルを習得し、高速データ送信やリアルタイム信号処理などのシナリオでその効果を最大化できます。

CでChronoライブラリを使用すると、時間と時間の間隔をより正確に制御できます。このライブラリの魅力を探りましょう。 CのChronoライブラリは、時間と時間の間隔に対処するための最新の方法を提供する標準ライブラリの一部です。 Time.HとCtimeに苦しんでいるプログラマーにとって、Chronoは間違いなく恩恵です。コードの読みやすさと保守性を向上させるだけでなく、より高い精度と柔軟性も提供します。基本から始めましょう。 Chronoライブラリには、主に次の重要なコンポーネントが含まれています。STD:: Chrono :: System_Clock:現在の時間を取得するために使用されるシステムクロックを表します。 STD :: Chron

CでのハイDPIディスプレイの取り扱いは、次の手順で達成できます。1)DPIを理解してスケーリングし、オペレーティングシステムAPIを使用してDPI情報を取得し、グラフィックスの出力を調整します。 2)クロスプラットフォームの互換性を処理し、SDLやQTなどのクロスプラットフォームグラフィックライブラリを使用します。 3)パフォーマンスの最適化を実行し、キャッシュ、ハードウェアアクセラレーション、および詳細レベルの動的調整によりパフォーマンスを改善します。 4)ぼやけたテキストやインターフェイス要素などの一般的な問題を解決し、DPIスケーリングを正しく適用することで解決します。

Cは、リアルタイムオペレーティングシステム(RTOS)プログラミングでうまく機能し、効率的な実行効率と正確な時間管理を提供します。 1)Cハードウェアリソースの直接的な動作と効率的なメモリ管理を通じて、RTOのニーズを満たします。 2)オブジェクト指向の機能を使用して、Cは柔軟なタスクスケジューリングシステムを設計できます。 3)Cは効率的な割り込み処理をサポートしますが、リアルタイムを確保するには、動的メモリの割り当てと例外処理を避ける必要があります。 4)テンプレートプログラミングとインライン関数は、パフォーマンスの最適化に役立ちます。 5)実際のアプリケーションでは、Cを使用して効率的なロギングシステムを実装できます。

交換に組み込まれた量子化ツールには、1。Binance:Binance先物の定量的モジュール、低い取り扱い手数料を提供し、AIアシストトランザクションをサポートします。 2。OKX(OUYI):マルチアカウント管理とインテリジェントな注文ルーティングをサポートし、制度レベルのリスク制御を提供します。独立した定量的戦略プラットフォームには、3。3Commas:ドラッグアンドドロップ戦略ジェネレーター、マルチプラットフォームヘッジアービトラージに適しています。 4。Quadency:カスタマイズされたリスクしきい値をサポートするプロフェッショナルレベルのアルゴリズム戦略ライブラリ。 5。Pionex:組み込み16のプリセット戦略、低い取引手数料。垂直ドメインツールには、6。cryptohopper:クラウドベースの定量的プラットフォーム、150の技術指標をサポートします。 7。BITSGAP:

Cのスレッドパフォーマンスの測定は、標準ライブラリのタイミングツール、パフォーマンス分析ツール、およびカスタムタイマーを使用できます。 1.ライブラリを使用して、実行時間を測定します。 2。パフォーマンス分析にはGPROFを使用します。手順には、コンピレーション中に-pgオプションを追加し、プログラムを実行してGmon.outファイルを生成し、パフォーマンスレポートの生成が含まれます。 3. ValgrindのCallGrindモジュールを使用して、より詳細な分析を実行します。手順には、プログラムを実行してCallGrind.outファイルを生成し、Kcachegrindを使用して結果を表示することが含まれます。 4.カスタムタイマーは、特定のコードセグメントの実行時間を柔軟に測定できます。これらの方法は、スレッドのパフォーマンスを完全に理解し、コードを最適化するのに役立ちます。

Cで文字列ストリームを使用するための主な手順と予防策は次のとおりです。1。出力文字列ストリームを作成し、整数を文字列に変換するなどのデータを変換します。 2。ベクトルを文字列に変換するなど、複雑なデータ構造のシリアル化に適用します。 3.パフォーマンスの問題に注意を払い、大量のデータを処理するときに文字列ストリームを頻繁に使用することを避けます。 std :: stringの追加方法を使用することを検討できます。 4.メモリ管理に注意を払い、ストリングストリームオブジェクトの頻繁な作成と破壊を避けます。 std :: stringstreamを再利用または使用できます。

MySQLでデータを挿入するための効率的な方法には、次のものが含まれます。1。insertInto ...値構文、2。LoadDatainFileコマンドの使用、3。トランザクション処理の使用、4。バッチサイズの調整、5。Insurtignoreまたは挿入の使用...
