ホームページ テクノロジー周辺機器 AI 言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

Oct 16, 2023 pm 08:21 PM
ロボット 言語 シミュレーションタスク

コンテンツを次のように書き換えました: Machine Heart Report

編集者: Du Wei、Xiaozhou

GPT-4 とロボットが新たな火種を生み出しました。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

ロボット工学の分野では、普遍的なロボット戦略の実装には大量のデータが必要であり、現実世界でこのデータを収集するのは時間と労力がかかります。シミュレーションは、シーン レベルおよびインスタンス レベルでさまざまな量のデータを生成するための経済的なソリューションを提供しますが、シミュレートされた環境でタスクの多様性を高めるには、依然として大量の人員が必要となるため (特に複雑なタスクの場合) 課題に直面しています。その結果、典型的な人工シミュレーション ベンチマークには、通常、数十から数百のタスクしか含まれていません。

どうすれば解決できますか?近年、大規模な言語モデルは、さまざまなタスクの自然言語処理とコード生成において大幅な進歩を続けています。同様に、LLM は、ユーザー インターフェイス、タスクと動作計画、ロボット ログの概要、コストと報酬の設計など、ロボット工学のさまざまな側面に適用されており、物理ベースのタスクとコード生成タスクの両方で強力な機能を明らかにしています。

最近の研究では、MIT CSAIL、上海交通大学、その他の機関の研究者が、LLM を使用して多様なシミュレーション タスクを作成し、その機能をさらに探索できるかどうかをさらに調査しました。

具体的には、研究者らは、タスク資産の配置とタスクの進捗状況を設計および検証するための自動メカニズムを提供する、LLM ベースのフレームワークである GenSim を提案しました。さらに重要なことは、生成されたタスクは非常に多様性を示し、ロボット戦略のタスクレベルの一般化を促進します。さらに、概念的には、GenSim を使用すると、LLM の推論およびエンコード機能が、シミュレートされたデータの中間合成を通じて言語-視覚-アクション戦略に洗練されます。 ‍

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

書き直す必要があるのは次のとおりです: 論文リンク:

https://arxiv.org/pdf/2310.01361.pdf‍

GenSim フレームワークは次の 3 つの部分で構成されます:

  • ‍1 つ目は、自然言語命令と対応するコードによって実装されたプロンプト メカニズムを通じて新しいタスクを提案することです。
  • Second は、検証と言語モデルの微調整のために以前に生成された高品質の命令コードをキャッシュし、それらを包括的なタスク データ セットとして返すタスク ライブラリです。
  • 最後に、言語に適応したマルチタスク戦略トレーニング プロセスでは、生成されたデータを使用してタスク レベルの汎化機能を強化します。 ‍
同時に、フレームワークは 2 つの異なるモードで動作します。このうち、目標指向設定では、ユーザーは特定のタスクを持っている、またはタスクのコースを設計したいと考えています。現時点では、GenSim はトップダウンのアプローチを採用しており、予想されるタスクを入力として受け取り、予想される目標を達成するために関連するタスクを繰り返し生成します。探索的環境では、ターゲット タスクに関する事前知識が不足している場合、GenSim は既存のタスクを超えてコンテンツを徐々に探索し、タスクから独立した基本戦略を確立します。

以下の図 1 では、研究者は手動で計画された 10 個のタスクを含むタスク ライブラリを初期化し、GenSim を使用してそれを拡張し、100 個を超えるタスクを生成しました。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

研究者らはまた、生成されたシミュレーション タスクの品質を段階的に測定するためにいくつかのカスタマイズされた指標を提案し、目標指向および探索的な設定でいくつかの LLM を評価しました。 GPT-4 によって生成されたタスク ライブラリについては、GPT-3.5 や Code-Llama などの LLM に対して教師あり微調整を実行し、LLM のタスク生成パフォーマンスをさらに向上させました。同時に、タスクの達成可能性は戦略トレーニングを通じて定量的に測定され、さまざまな属性のタスク統計とさまざまなモデル間のコード比較が提供されます。

それだけでなく、研究者らはマルチタスクのロボット戦略も訓練しました。人間の計画タスクのみで訓練されたモデルと比較して、これらの戦略はすべての生成タスクでよく一般化され、ゼロショットの一般化が改善されました。 GPT-4 生成タスクを使用した共同トレーニングにより、汎化パフォーマンスが 50% 向上し、ゼロショット タスクの約 40% をシミュレーション内の新しいタスクに転送できます。 ‍

最後に、研究者らはシミュレーションから現実への移行も検討し、さまざまなシミュレーション タスクでの事前トレーニングによって現実世界の汎化能力が 25% 向上する可能性があることを示しました。

要約すると、LLM で生成されたさまざまなタスクでトレーニングされたポリシーは、新しいタスクに対するタスク レベルの一般化を改善し、LLM を介してシミュレートされたタスクを拡張して基本ポリシーをトレーニングできる可能性を強調しています。

Tenstorrent AI 製品管理ディレクターの Shubham Saboo 氏は、この研究を高く評価し、GPT-4 などの LLM を使用して自動操縦で一連のシミュレートされたロボットを生成する、GPT-4 とロボットを組み合わせた画期的な研究であると述べました。 、ロボットのゼロショット学習と現実世界への適応を実現します。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

メソッドの紹介

下の図 2 に示すように、GenSim フレームワークはプログラム合成を通じてシミュレーション環境、タスク、およびデモンストレーションを生成します。 GenSim パイプラインはタスク作成者から開始され、プロンプト チェーンはターゲット タスクに応じて、目標指向モードと探索モードの 2 つのモードで実行されます。 GenSim のタスク ライブラリは、以前に生成された高品質のタスクを保存するために使用されるメモリ内コンポーネントであり、タスク ライブラリに保存されたタスクは、マルチタスク ポリシーのトレーニングや LLM の微調整に使用できます。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

タスク作成者

以下の図 3 に示すように、言語チェーンは最初にタスクの説明を生成し、次に関連する実装を生成します。タスクの説明には、タスク名、リソース、タスクの概要が含まれます。この調査では、パイプラインで少数のサンプル プロンプトを使用してコードを生成します。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

タスク ライブラリ

GenSim フレームワークのタスク ライブラリは、より優れた新しいタスクを生成し、マルチタスク戦略をトレーニングするために、タスク作成者によって生成されたタスクを保存します。タスク ライブラリは、手動で作成されたベンチマークのタスクに基づいて初期化されます。

タスク ライブラリは、タスク作成者に説明生成フェーズの条件として前のタスクの説明を提供し、コード生成フェーズに前のコードを提供し、タスク作成者にタスク ライブラリから参照タスクを選択するよう促します。新しいタスクのサンプルを作成するための基礎。タスクの実装が完了し、すべてのテストに合格すると、LLM は新しいタスクとタスク ライブラリを「反映」し、新しく生成されたタスクをライブラリに追加するかどうかについて包括的な決定を下すように求められます。

以下の図 4 に示すように、この研究では、GenSim が興味深いタスクレベルの組み合わせと外挿動作を示していることも観察されました。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

LLM 監督マルチタスク戦略

タスクを生成した後、この研究では、Shridhar et al. (2022) と同様のデュアルストリーム伝送ネットワーク アーキテクチャを使用して、これらのタスク実装を使用してデモンストレーション データを生成し、運用ポリシーをトレーニングします。

下の図 5 に示すように、この研究では、プログラムをタスクと関連するデモンストレーション データの効果的な表現とみなします (図 5)。タスク間の埋め込み空間を定義することが可能であり、その距離インデックスはさまざまな影響を受けます。知覚からの要素 (オブジェクトの姿勢や形状など) はより堅牢です。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

内容を書き直すには、元のテキストの言語を中国語に書き直す必要があり、元の文を表示する必要はありません

この研究では、実験を通じて GenSim フレームワークを検証し、次の特定の質問に対処します: (1) LLM はシミュレーション タスクの設計と実装においてどの程度効果的ですか? GenSim はタスク生成における LLM のパフォーマンスを向上させることができますか? (2) LLM によって生成されたタスクに関するトレーニングは、ポリシーの一般化能力を向上させることができますか?より多くの生成タスクを与えれば、ポリシー トレーニングのメリットはさらに大きくなるでしょうか? (3) LLM で生成されたシミュレーション タスクの事前トレーニングは、現実世界のロボット ポリシーの展開に有益ですか?

LLM ロボット シミュレーション タスクの汎化能力を評価する

以下の図 6 に示すように、探索モードと目標指向モードのタスク生成では、少数のサンプルとタスク ライブラリの 2 段階のプロンプト チェーンにより、コード生成の成功率を効果的に向上させることができます。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

タスクレベルの一般化

関連タスクの少数サンプル戦略の最適化。以下の図 7 の左側からわかるように、LLM によって生成されたタスクを共同トレーニングすると、特にデータ量が少ない状況 (5 つのデモなど) で、元の CLIPort タスクのポリシーのパフォーマンスが 50% 以上向上します。

目に見えないタスクに対するゼロショット ポリシーの一般化。図 7 からわかるように、LLM によって生成されたより多くのタスクで事前トレーニングすることにより、モデルは元の Ravens ベンチマークのタスクに対してより適切に一般化できます。図 7 の中央右では、研究者らはまた、手動で作成されたタスク、クローズドソース LLM、オープンソースの微調整された LLM を含む、異なるタスク ソースで 5 つのタスクを事前トレーニングし、同様のゼロショット タスク レベルを観察しました。一般化。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

事前トレーニングされたモデルを現実世界に適応させる

研究者は、シミュレーション環境で訓練された戦略を現実の環境に移しました。結果は以下の表 1 に示されており、GPT-4 で生成された 70 個のタスクで事前トレーニングされたモデルは、9 個のタスクで 10 回の実験を実施し、平均成功率 68.8% を達成しました。これは、CLIPort タスクのみで事前トレーニングした場合よりも優れています。ベースライン モデルと比較すると 25% 以上改善され、わずか 50 のタスクで事前トレーニングされたモデルと比較すると 15% 改善されました。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

研究者らはまた、さまざまなシミュレーション タスクでの事前トレーニングにより、長期にわたる複雑なタスクの堅牢性が向上することも観察しました。たとえば、GPT-4 の事前トレーニングされたモデルは、実際のビルドホイール タスクでより堅牢なパフォーマンスを示します。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

アブレーション実験

シミュレーション トレーニングの成功率。以下の表 2 では、研究者らは 200 個のデモを使用して、生成されたタスクのサブセットに対するシングルタスクおよびマルチタスクのポリシー トレーニングの成功率を示しています。 GPT-4 生成タスクに関するポリシー トレーニングの場合、平均タスク成功率はシングル タスクで 75.8%、マルチタスクで 74.1% です。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

タスク統計を生成します。以下の図 9 (a) では、研究者は、LLM によって生成された 120 個のタスクのさまざまな機能のタスク統計を示しています。 LLM モデルによって生成される色、アセット、アクション、およびインスタンスの数の間には、興味深いバランスがあります。たとえば、生成されたコードには、7 つを超えるオブジェクト インスタンスを含む多くのシーンに加えて、ピック アンド プレイスのプリミティブ アクションやブロックなどのアセットが多数含まれています。

コード生成の比較において、研究者は、以下の図 9(b) の GPT-4 と Code Llama のトップダウン実験における失敗ケースを定性的に評価しました。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。

技術的な詳細については、元の論文を参照してください。

以上が言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを生成し、現実世界に移行します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

iPhoneで言語を変更する3つの方法 iPhoneで言語を変更する3つの方法 Feb 02, 2024 pm 04:12 PM

iPhone が最も使いやすい電子機器の 1 つであることは周知の事実であり、その理由の 1 つは、自分好みに簡単にカスタマイズできることです。個人設定では、iPhone のセットアップ時に選択した言語とは別の言語に変更できます。複数の言語に精通している場合、または iPhone の言語設定が間違っている場合は、以下で説明するように変更できます。 iPhoneの言語を変更する方法[3つの方法] iOSでは、ユーザーはさまざまなニーズに合わせてiPhoneの優先言語を自由に切り替えることができます。 Siri との対話言語を変更して、音声アシスタントとのコミュニケーションを容易にすることができます。同時に、ローカルキーボードを使用する場合、複数の言語を簡単に切り替えることができ、入力効率が向上します。

2か月後、人型ロボットWalker Sが服をたたむことができるようになった 2か月後、人型ロボットWalker Sが服をたたむことができるようになった Apr 03, 2024 am 08:01 AM

Machine Power Report 編集者: Wu Xin 国内版の人型ロボット + 大型模型チームは、衣服を折りたたむなどの複雑で柔軟な素材の操作タスクを初めて完了しました。 OpenAIのマルチモーダル大規模モデルを統合したFigure01の公開により、国内同業者の関連動向が注目を集めている。つい昨日、中国の「ヒューマノイドロボットのナンバーワン株」であるUBTECHは、Baidu Wenxinの大型モデルと深く統合されたヒューマノイドロボットWalkerSの最初のデモを公開し、いくつかの興味深い新機能を示した。 Baidu Wenxin の大規模モデル機能の恩恵を受けた WalkerS は次のようになります。 Figure01 と同様に、WalkerS は動き回るのではなく、机の後ろに立って一連のタスクを完了します。人間の命令に従って服をたたむことができる

AI はどのようにロボットをより自律的で順応性のあるものにすることができるのでしょうか? AI はどのようにロボットをより自律的で順応性のあるものにすることができるのでしょうか? Jun 03, 2024 pm 07:18 PM

産業オートメーション技術の分野では、人工知能 (AI) と Nvidia という無視できない 2 つの最近のホットスポットがあります。元のコンテンツの意味を変更したり、コンテンツを微調整したり、コンテンツを書き換えたり、続行しないでください。「それだけでなく、Nvidia はオリジナルのグラフィックス プロセッシング ユニット (GPU) に限定されていないため、この 2 つは密接に関連しています。」このテクノロジーはデジタル ツインの分野にまで広がり、新たな AI テクノロジーと密接に関係しています。「最近、NVIDIA は、Aveva、Rockwell Automation、Siemens などの大手産業オートメーション企業を含む多くの産業企業と提携に至りました。シュナイダーエレクトリック、Teradyne Robotics とその MiR および Universal Robots 企業も含まれます。最近、Nvidiahascoll

二代目アメカ登場!彼は観客と流暢にコミュニケーションをとることができ、表情はよりリアルで、数十の言語を話すことができます。 二代目アメカ登場!彼は観客と流暢にコミュニケーションをとることができ、表情はよりリアルで、数十の言語を話すことができます。 Mar 04, 2024 am 09:10 AM

人型ロボット「アメカ」が第二世代にバージョンアップ!最近、世界移動通信会議 MWC2024 に、世界最先端のロボット Ameca が再び登場しました。会場周辺ではアメカに多くの観客が集まった。 GPT-4 の恩恵により、Ameca はさまざまな問題にリアルタイムで対応できます。 「ダンスをしましょう。」感情があるかどうか尋ねると、アメカさんは非常に本物そっくりの一連の表情で答えました。ほんの数日前、Ameca を支援する英国のロボット企業である EngineeredArts は、チームの最新の開発結果をデモンストレーションしたばかりです。ビデオでは、ロボット Ameca は視覚機能を備えており、部屋全体と特定のオブジェクトを見て説明することができます。最も驚くべきことは、彼女は次のこともできるということです。

柔軟かつ高速な 5 本の指を備え、人間のタスクを自律的に完了する初のロボットが登場、大型モデルが仮想空間トレーニングをサポート 柔軟かつ高速な 5 本の指を備え、人間のタスクを自律的に完了する初のロボットが登場、大型モデルが仮想空間トレーニングをサポート Mar 11, 2024 pm 12:10 PM

今週、OpenAI、Microsoft、Bezos、Nvidiaが投資するロボット企業FigureAIは、7億ドル近くの資金調達を受け、来年中に自立歩行できる人型ロボットを開発する計画であると発表した。そしてテスラのオプティマスプライムには繰り返し良い知らせが届いている。今年が人型ロボットが爆発的に普及する年になることを疑う人はいないだろう。カナダに拠点を置くロボット企業 SanctuaryAI は、最近新しい人型ロボット Phoenix をリリースしました。当局者らは、多くのタスクを人間と同じ速度で自律的に完了できると主張している。人間のスピードでタスクを自律的に完了できる世界初のロボットである Pheonix は、各オブジェクトを優しくつかみ、動かし、左右にエレガントに配置することができます。自律的に物体を識別できる

Win10コンピュータの言語を中国語に設定するにはどうすればよいですか? Win10コンピュータの言語を中国語に設定するにはどうすればよいですか? Jan 05, 2024 pm 06:51 PM

コンピュータ システムをインストールしただけで、システムが英語になっている場合があります。この場合、コンピュータの言語を中国語に変更する必要があります。それでは、win10 システムでコンピュータの言語を中国語に変更するにはどうすればよいでしょうか?具体的な操作方法を説明します。 。 win10 でコンピューターの言語を中国語に変更する方法 1. コンピューターの電源を入れ、左下隅にあるスタート ボタンをクリックします。 2. 左側の設定オプションをクリックします。 3. 開いたページで「時刻と言語」を選択します 4. 開いたら、左側の「言語」をクリックします 5. ここで、希望するコンピューター言語を設定できます。

この人型ロボットは魔法を使うことができます。春祭り祝賀プログラム チームに詳細を調べてもらいましょう この人型ロボットは魔法を使うことができます。春祭り祝賀プログラム チームに詳細を調べてもらいましょう Feb 04, 2024 am 09:03 AM

瞬く間に、ロボットは魔法を使えるようになったのでしょうか?最初にテーブルの上の水スプーンを取り上げ、中には何も入っていないことを観客に証明したのが見られました。次に、卵のような物体を手に置き、水スプーンをテーブルに戻し、が「呪文を唱え」始めました… …再び水スプーンを拾ったそのとき、奇跡が起こりました。元々入っていた卵が消えて、飛び出してきたのがバスケットボールに… もう一度連続動作を見てみましょう: △ このアニメーションは一連の動作を2倍速で表示しており、スムーズに流れています。ビデオを 0.5 倍速で繰り返し再生すると、うまくいくでしょうか? 最後に、手の速度がもっと速ければ、敵から隠すことができるかもしれないという手がかりを発見しました。一部のネチズンは、ロボットの魔法のスキルが自分たちのものよりもさらに高いと嘆いていました。マグは私たちのためにこの魔法を実行してくれたのです。

Cloud Whale Xiaoyao 001 の掃除と掃き掃除ロボットには「頭脳」があります。 | 経験 Cloud Whale Xiaoyao 001 の掃除と掃き掃除ロボットには「頭脳」があります。 | 経験 Apr 26, 2024 pm 04:22 PM

掃除ロボットやモップ拭きロボットは、近年消費者の間で最も人気のあるスマート家電製品の 1 つです。操作の利便性、あるいは操作の必要がないことで、怠け者は手を解放し、消費者は日常の家事から「解放」され、好きなことにもっと時間を費やすことができるようになり、生活の質が向上します。この流行に乗って、市場に出回っているほぼすべての家電ブランドが独自の掃除ロボットや拭き掃除ロボットを製造しており、掃除ロボット市場全体が非常に活発になっています。しかし、市場の急速な拡大は必然的に隠れた危険をもたらします。多くのメーカーがより多くの市場シェアを急速に占有するために機械の海戦術を使用し、その結果、アップグレードポイントのない多くの新製品が生まれるとも言われています。まさに「マトリョーシカ」モデルです。ただし、すべての掃除ロボットやモップロボットがそうであるわけではありません。

See all articles