Facebookのニューラルネットワークは、録音によってミュージシャンの動きを予測しました

ビデオ: Facebookのニューラルネットワークは、録音によってミュージシャンの動きを予測しました

ビデオ: Что именно произошло с Facebook: о сбое простым языком 2022, 12月
Facebookのニューラルネットワークは、録音によってミュージシャンの動きを予測しました
Facebookのニューラルネットワークは、録音によってミュージシャンの動きを予測しました
Anonim
Image
Image

Facebookの開発者は、オーディオ録音からミュージシャンの手の動きを予測できるニューラルネットワークを発表しました。システムは楽曲を聴き、同時に拡張現実でメロディーを演奏するアバターを投影します。コンピュータビジョンとパターン認識に関する会議(CVPR)で論文が発表されたプログラマーは、開発が楽器の教育に役立つと信じています。

今日、さまざまな楽器を演奏するための独立した学習のために、さまざまなアプリケーションとビデオチュートリアルが使用されています。ただし、原則として、ミュージシャンの動きを特定の角度からのみ考慮することができます。教師を仮想現実または拡張現実に転送すると、楽器を演奏するときに手の正しい位置を完全に確認できるため、ユーザーにとって便利な場合があります。

Eli Shlizermanが率いる開発チームは、オーディオ録音に基づいてピアニストまたはバイオリニストの手の動きを模倣できる仮想アバターを作成することを決定しました。これを行うために、彼らはLSTMニューラルネットワークを使用しました。これは一種のリカレントニューラルネットワークアーキテクチャであり、各レイヤーには他のレイヤーとのフィードバックがあり、間違いから学び、長期的な接続を学ぶことができる一種のメモリがあります(LSTMニューラルネットワークの詳細については、当社の資料を参照してください)。 「最も人間的なタスク」)。

トレーニング用のデータとして、プログラマーは、伴奏なしで楽器を演奏する専門家の公開されているビデオを使用しました。ピアノの場合、研究者はなんとか3、6時間の資料を収集し、バイオリンの場合は4、4時間でした。ビデオ録画の各フレームで、ニューラルネットワークはパフォーマーの手と指がどこにあるかを決定し、骨格モデルを構築しました。彼女はこのデータを、オーディオ信号の特性として使用されるチョーク周波数のケプストラム係数と比較しました。研究者はmidiファイルを使用しなかったため、ニューラルネットワークは音符と特定のピアノの鍵盤などの間の依存関係を学習しなかったことに注意することが重要です。

Image
Image

それに基づいて作成されたニューラルネットワークモデルとアニメーション

その結果、プログラムは音の特性とミュージシャンの手の動きとの関係を決定し、予測を行うことを学びました。ニューラルネットワークによって作成された骨格モデルは、拡張現実でアバターを作成するために開発者によって使用されました。彼らの仕事の結果は以下のビデオで見ることができます:

ビデオは、アバターがミュージシャンの動きを完全に繰り返すのではなく、ミュージシャンを模倣していることを明確に示しています。それにもかかわらず、仮想キャラクターの動きは非常に自然に見えます。作成者によると、将来的には、この技術は多くのアプリケーションを見つける可能性があります。たとえば、アバターはトレーニングに使用できます。アバターは仮想現実でプロの動きをコピーしますが、ユーザーはさまざまな側面からアバターを歩き回り、ゲームのテクニックを観察することができます。

今日、仮想アバターはますますさまざまなタスクに使用されています。たとえば、彼らの助けを借りて、統合失調症の患者や麻痺した人々を治療するために、犯罪の目撃者にインタビューすることが提案されています。

トピックによって人気があります

人気の投稿