仮想環境は、ロボットに立方体を巧みに回転させるように教えました

ビデオ: 仮想環境は、ロボットに立方体を巧みに回転させるように教えました

Отличия серверных жестких дисков от десктопных
ビデオ: 仮想環境で学習するロボット 2023, 1月
仮想環境は、ロボットに立方体を巧みに回転させるように教えました
仮想環境は、ロボットに立方体を巧みに回転させるように教えました
Anonim
Image
Image

OpenAI研究所の専門家は、人間の手のロボットコピーのアルゴリズムを作成しました。これにより、立方体を所定の位置に回転させることができます。開発者はプロジェクトのブログで、最初にアルゴリズムが仮想空間でトレーニングされ、次に学習したスキルが物理的な実装に移されたと述べています。テストの1つでは、ロボットは立方体を落下させることなく、50回続けて目的の位置に正常に回転させることができました。

エンジニアは長い間、人間の手の複雑な電気機械的類似体を作成することを学びました。しかし、原則として、それらは切断された手足の代わりに義肢として、または遠隔操作装置として使用されます。このような複雑なデバイスを自律的に制御するためのアルゴリズムは、ロボットアームの作成におけるエンジニアリング開発にまだ著しく遅れをとっています。

非営利団体OpenAIの開発者グループは、手のロボットの類似物が、人間にとっては単純だがロボットにとっては非常に難しいタスクを独立して実行できるようにするアルゴリズムを作成することができました。つまり、立方体を正しい方向に向けることができました。秒針や追加のオブジェクトの助けを借りずに。ロボットアームの物理的な実装に関するトレーニングには非常に時間がかかるため、研究者はコンピューターシミュレーションでトレーニングしました。開発者によって作成された仮想環境は、MuJuCo物理エンジンとUnityゲームエンジンに基づいています。その中で、彼らはShadow DexterousHandの作業をシミュレートしました。

エンジンは実際の物理的相互作用を非常に正確にシミュレートしますが、それでもいくつかの単純化があり、実際のロボットアームの段階的な摩耗も考慮されていません。アルゴリズムによって学習されたスキルを実際のデバイスに転送するために、研究者はシミュレーション中にパラメーターをランダムに変更しました。たとえば、立方体のサイズと重量、オブジェクト間の摩擦のレベル、さらには力の方向さえも変化しました。

Image
Image

アルゴリズム学習スキーム

研究者たちは、運動を計画するためのアルゴリズムとして、長短期記憶(LSTM)リカレントニューラルネットワークを選択しました。このようなメモリの存在により、アルゴリズムは環境パラメータのランダムな変化にうまく対処することができました。各シミュレーション中に、彼は指先と立方体の位置に関するデータを受け取り、次の動きを計画しました。仮想ロボットアームが立方体を正しい方向に回転させ、落下させなかった場合、試行は成功したと見なされました。さらに、研究者は実際の環境に合わせてシステムを準備し、畳み込みニューラルネットワークに基づいて追加の中間アルゴリズムを作成しました。このアルゴリズムは、異なる角度からの手の3つの合成写真を入力として受け取り、立方体の位置を決定しました。

アルゴリズムをトレーニングするために、研究者は6144プロセッサコアと8つの強力なビデオアクセラレータを備えたコンピュータを使用しました。これにより、50実時間で約100年のシミュレーション試行を行うことができました。その結果、研究者はアルゴリズムをトレーニングし、スキルを実際の環境に移すことができました。実際のロボットアームを使用し、指の位置に関するデータと3台のカメラからの画像を入力として使用しました。さらに、16台のカメラのキューブ追跡システムがインストールされ、実際の環境でアルゴリズムを個別にテストしました。

カメラからの3つの画像から立方体の位置を計算するためのアルゴリズムは、実際には複雑なモーショントラッキングシステムに劣らないことが判明しました。彼女がいる場合、連続して成功した試行の中央値は13回であり、彼女がいない場合は-11、5でした。最大の結果ははるかに高かった。研究者たちは、50回の連続した成功した試みの記録的な割合でビデオを示しました:

2016年、X社(旧称Google X)のスペシャリストが、ロボットアームの高速学習の問題を別の方法で解決しました。このために、彼らは単一のネットワークに統合された複数のマニピュレータのシステムを作成しました。マニピュレータからのデータは中央サーバーに送信され、そこでニューラルネットワークモデルの追加のトレーニングと調整が行われ、そのパラメータがマニピュレータに返送されました。

トピックによって人気があります