ニューラルネットワークは、新しい角度からリアルな映像を作成するように教えられました

ビデオ: ニューラルネットワークは、新しい角度からリアルな映像を作成するように教えられました

ビデオ: Deep Learning入門:ニューラルネットワーク学習の仕組み 2022, 12月
ニューラルネットワークは、新しい角度からリアルな映像を作成するように教えられました
ニューラルネットワークは、新しい角度からリアルな映像を作成するように教えられました
Anonim
Image
Image

ロシアの研究者は、人々が部屋を想像するのと同じように、新しい角度からビデオを作成する方法を開発しました。最初に、アルゴリズムはシーンの幾何学的および視覚的パラメータを説明する元のビデオから点群を作成し、次にニューラルネットワークはこの雲に基づいて必要な角度からフレームを作成します。この方法では、新しいビデオで反射や薄いオブジェクトを正しく再現できるため、別の方法を使用するよりもビデオをよりリアルにできます。著者はarXiv.orgに公開された記事に書いています。

通常、部屋、人、またはその他のオブジェクトの3Dモデルの自動作成と、それに続く新しい角度からのフレームのレンダリングは、いくつかの段階で行われます。まず、シーンの写真を撮り、深度カメラまたは他のスキャンツールを使用してその幾何学的パラメータに関するデータを取得する必要があります。スキャン結果は、通常、かなり高レベルのノイズと不正確さを伴う体積点群であるため、点群はその後ポリゴンモデルに変換されます。次に、カメラからのデータに基づいて、モデルにマテリアルのプロパティを反映するテクスチャが追加されます。最後に、モデルを作成したら、フレームをレンダリングする必要があります。これには、リアルな照明や光沢のある表面からの反射などの他の光学効果を再現するためのレイトレーシングが含まれます。

ビクターレンピツキーが率いるモスクワ人工知能センターサムスンの研究者は、これらの段階の多くをバイパスして、新しい角度からシーンを合成するアルゴリズムを作成しました。

このプロセスは、深度カメラを使用してビデオを撮影することから始まります。深度カメラは、3色(赤、緑、青)に加えて、オブジェクトからカメラまでの相対距離を各ピクセルに割り当てます。次に、運動からの構造の再構築(SfM)とマルチアングルステレオ(MVS)の方法を使用して、深度データを含むフレームのセットが点群に変換されます。

その後、メインステージが始まります。その間、ニューラルネットワークアルゴリズムは、クラウドの各ポイントを8つの視覚的記述子(このポイントの色と幾何学的特性を説明するパラメーター)と照合し、シーンのビューを任意の角度から復元できるようにします。 。

Image
Image

メソッド図

レンダリングは次のとおりです。フレームごとに、ポイント、記述子、およびビューパラメータのセットが形成されます。次に、このボリュームデータのセットはラスタライズされ、2次元フレームに変換されます。このフレームでは、各ピクセルに以前に計算された記述子のセットが割り当てられます。その後、フレームは畳み込みニューラルネットワークに渡されます。畳み込みニューラルネットワークは、視覚記述子の空間から3次元の色空間にフレームを「再着色」します。

開発者は、ScanNetデータセットからのRGBDクリップ(3色に加えて、各ピクセルに深度が割り当てられている)でアルゴリズムをトレーニングし、テストしました。トレーニング中、損失関数により、ニューラルネットワークレンダリングの結果として得られた画像を実際のフレームと比較することにより、「色付け」と視覚的記述子の作成を改善することができました。

著者らは、このアルゴリズムが、反射などの角度に依存する光の特性を再現でき、自転車の車輪のスポークや布のテクスチャなどの薄いオブジェクトでも非常にうまく機能することを示しました。さらに、彼らはそれを他のものと比較することによって彼らの方法の利点を示しました。作業専用のページでは、アルゴリズムの結果と他の方法および初期データとのインタラクティブな比較が公開されています。

Image
Image

新しいアルゴリズム(5番目のフレーム)と実際の写真(6番目のフレーム)およびその他のレンダリング方法との比較

昨年、Googleのスペシャリストが作成した、新しい角度からフレームを作成できるニューラルネットワークについてお話しました。異なるアプローチを使用します。近い角度から2つのフレームを受信し、アルゴリズムはシーンのマルチプレーン表現を作成します。各レイヤーには、その上にあるシーンの領域の色と透明度に関する情報が含まれます。また、NVIDIAの開発者は、ニューラルネットワークレンダリングを使用して自動車シミュレーターを作成しました。その中で、ゲームエンジンは3Dモデルのパラメータを計算し、オブジェクトのタイプに応じて領域を分割して意味的にセグメント化されたフレームを生成し、ニューラルネットワークはこれらのフレームを「色付け」して比較的リアルな画像に変換します。

さらに、DeepMindの専門家によって作成されたアルゴリズムは、新しい角度からフレームを作成できますが、それは非常に低解像度の人工的に作成された画像でのみ機能します。

トピックによって人気があります

人気の投稿