ニューラルネットワークは、支援なしで3Dで世界を提示します

ビデオ: ニューラルネットワークは、支援なしで3Dで世界を提示します

ビデオ: Deep Learning入門:ニューラルネットワーク学習の仕組み 2022, 12月
ニューラルネットワークは、支援なしで3Dで世界を提示します
ニューラルネットワークは、支援なしで3Dで世界を提示します
Anonim
Image
Image

DeepMindラボのプログラマーは、シーンを個別に探索し、その中のオブジェクトが見慣れない角度からどのように見えるかを「考える」ことができるアルゴリズムを作成しました。新しいプログラムの主な違いは、トレーニングに追加情報を必要としないことです。開発者が部屋の中にあるオブジェクトやそれらがどこにあるかを知らなくても、ニューラルネットワークはうまく機能します。記事はジャーナルScienceに掲載されました。

最新のマシンビジョンシステムの中心にあるのはディープニューラルネットワークであり、通常、トレーニングにはラベル付き画像の大規模なセットが必要です。プログラマーは画像の細部をすべて手動で記述する必要があるため、このようなセットを作成するには多くの時間がかかります。その結果、シーンの多くの側面が省略され、マシンビジョンアルゴリズムの機能が制限されます。この制限を克服するために、開発者は、より「人間的」な学習へのアプローチを提案しました。エージェントが3次元シーンを複数の角度から独立して観察し、別の任意の表示角度からレンダリングする環境を作成しました。

GoogleDeepMindのAliEslamiが率いる新作の作者は、エージェントが自分で取得した情報からのみ学習し、環境の認識を学習するGenerative Query Network(GQN)フレームワークを作成しました。 GQNは、代表ネットワークと生成ネットワークの2つの要素で構成されています。エージェントが環境を調べるとき、エージェントはシーンの2次元画像を受信し、それが代表的なネットワークに送信されます。含まれている情報をエンコードし、ベクトルとして表示します。追加の観測ごとに、シーン内のオブジェクトに関するより多くのデータを蓄積できます。次に、生成ネットワークは、受信した情報に基づいて、これまで未踏の新しい視点からシーンがどのように見えるかを予測し、3次元レンダリングを作成します。

表現ネットワークは、生成コンポーネントがシーンを「表現」する必要がある角度を知らないため、部屋内のオブジェクトの位置、色、光源の場所などを可能な限り正確かつ確実に記述します。 。そうすることで、GQNは、どの詳細が重要であるか、および一連のピクセルからそれらを抽出する方法を理解することを学習します。トレーニング中に、生成ネットワークは、シーン内のオブジェクトがどのように見えるか、オブジェクトが相互にどのように配置されているか、および部屋がどのようなプロパティを持っているかについて学習します。さらに、彼女はデータを一般化する方法を知っています。たとえば、さまざまなシーンで空に出会った場合、彼女はデータが常に青いことを思い出します。この一連の「概念」により、アルゴリズムはシーンを抽象的な方法で記述し、生成ネットワークは「必要な」詳細を考えることができます。

Image
Image

開発者は、仮想3Dの世界でいくつかの実験を行い、Generative QueryNetworkをテストしました。テストが示しているように、GQNはシーンを非常にリアルに再現します。つまり、遠近法、照明、またはオクルージョンの法則を知らなくても、かなり高品質の画像を作成します。さらに、アルゴリズムは、オブジェクトが完全に表示されていなくても、オブジェクトの数をカウントして分類することができます。その結果、プログラムの予測は非常に自然に見え、元の予測とほとんど区別がつきません。

Image
Image
Image
Image

アルゴリズムは人工的に作成されたデータのみでトレーニングされているため、GQNの作業はまだ不完全です。将来的には、開発者は実際のシーンを使用するだけでなく、より高品質のレンダリングを作成する予定です。

最近、研究者は、近い角度から撮影された2つのフレームから異なる角度から新しい画像を作成するアルゴリズムを開発しました。 GQNとは異なり、根本的に異なる視野角から写真を撮ることはありませんが、実際の画像で機能します。

トピックによって人気があります

人気の投稿