人工知能の無声動画

ビデオ: 人工知能の無声動画

ビデオ: 【AI動画】これが、人工知能が創り出した映像だ! FRACTAL 2022, 12月
人工知能の無声動画
人工知能の無声動画
Anonim
Image
Image

マサチューセッツ工科大学とスタンフォード人工知能研究所の科学者は、無音のビデオを発声し、オブジェクトの予測された特性に基づいて音を生成できる人工知能システムを作成しました。著者の研究は、マシンビジョンとパターン認識に関する年次会議(CVPR)で発表され、ArXivWebサイトに掲載されます。

科学者たちは彼らの研究のために、畳み込みニューラルネットワークに基づく人工知能システムを使用しました。彼らは、人々がドラムスティックを使用してさまざまな素材で作られたオブジェクトを叩いたり引っ掻いたりする977本の動画を作成しました。合計46,577回のアクションが行われました。研究者はフッテージを手動でマッピングし、素材の種類、衝撃の場所、アクションの性質(ヒットまたはスクラッチ)、および衝撃への応答(散乱、反り、またははね)を示しました。これらのラベルは、システムのパフォーマンスを評価するためにのみ使用され、システムをトレーニングするためには使用されませんでした。

Image
Image

人工知能を訓練するために使用される相互作用の材料と性質

人工知能は、さまざまなタイプの相互作用に対応する音の大きさとピッチを分析しました。ビデオがどのように聞こえるかを予測するために、彼はそれらの個々のフレームとサウンドを調査し、データベースからの最も類似したものと比較しました。

訓練後、システムは、どろどろからツタのざわめきまで、さまざまな音を独立して生成することを学びました。データベースからの音は将来使用されませんでした。

「人工知能への現在のアプローチは、五感のうちの1つにのみ焦点を当てています。たとえば、コンピュータービジョンの専門家は画像を使用し、音声認識の研究者は音声トラックを使用します。この作品は、音と視覚を組み合わせて、人の学習プロセスを模倣することに近づきます」と、作品の著者の1人はコメントしています。

Image
Image

生成された音と実際の音の比較

研究者は、Amazon Mechanical Turkでオンライン調査を実施することにより、システムの有効性をテストしました。ボランティアは、「声優」ビデオの2つのバージョンを比較し、提示されたオプションのどちらが実際の音に対応するかを決定する必要がありました。その結果、40%のケースで、人工知能は人々を欺くことができました。葉や汚れの音が最もリアルで(後者はビデオの約62%で真実と呼ばれていました)、最も現実的ではありませんでした-木と金属(金属は18%の時間しか自然に聞こえませんでした)。

さらに、人工知能は材料の硬度を決定することを学びました。これを行うために、科学者はすべてのビデオを2つのグループ(ハードマテリアルとソフトマテリアル)に分割し、実際のサウンドを使用してシステムをトレーニングしました。その結果、アルゴリズムは、67%の精度で予測された音から材料の種類を決定することができました。

それにもかかわらず、科学者によって作成されたシステムはまだ改善される必要があります。彼女は物体と接触したときに得られる音を生成することができますが、たとえば、風切り音には直接接触する必要はありません。さらに、アルゴリズムは、オブジェクトの移動速度が速すぎて適切なタイミングで「ヒット」しない場合にミスを犯します。

トピックによって人気があります

人気の投稿