ディズニーは映画を自動的に再生することを学びました

ビデオ: ディズニーは映画を自動的に再生することを学びました

ビデオ: 東京ディズニーシーおすすめアトラクション 2022, 12月
ディズニーは映画を自動的に再生することを学びました
ディズニーは映画を自動的に再生することを学びました
Anonim
Image
Image

リサウンドスタジオ

イギリスとアメリカの科学者は、ディズニーと協力して、ビデオを自動的に再吹き替えするためのアルゴリズムを作成しました。彼は話者の表情の変化を分析し、発音時に同じ動きを使用するテキストを選択します。作品はICASSP2015カンファレンスで公開され、ディズニーリサーチのウェブサイトで読むことができます。

新しい方法は、「動的な口形素」の分析に基づいています。つまり、発話中の特徴的な顔の動きです。プログラムは、顔の表情の変化をフレームごとに記録し、その後、唇、歯、あごなどのさまざまなポイントの座標などの正式な基準に従ってそれらをパラメータ化します。合計で約50,000のそのような兆候があり、それらは150のクラスにグループ化されました。人々が有名なテキストを読んだビデオのベースを分析した後、科学者は動的な万力の各クラスの対応表を作成しました。これは、特定のクラスのビセムと特定の音素との類似度を示しているため、画像は音と比較され、その逆も同様です。たとえば、科学者は、同じ一連の顔の動きが次のフレーズに等しくよく一致することを示しています。見本」、「スワットが好き」、「次に豚」、「鍋は必要ありません」、「タイクは急いで」など、何千ものものがあります。

Image
Image

Visemeシーケンスとそれに一致するフレーズの例

Image
Image

適切なフレーズの数(対数目盛)の長さへの依存性。緑と赤は静的メソッド、青は動的メソッドです

このアプローチの目新しさは、以前に行われたように静的ではなく動的なバイスムを使用することにあります。静的な万力は、動きではなく、凍った表情によって導かれます。このため、動的な顔の表情の場合よりも、同じ表情のシーケンスに対して選択できる音素がはるかに少なくなります。新しいアプローチの利点を明確に示すために、著者はいくつかのアルゴリズムを使用してビデオを自動的に吹き替えました。 2つのケースでは、彼らはよく知られた静的な方法を使用しました。後者の場合、動的な口形素を使用する新しい方法を使用しました。短いフレーズの場合、新しいアプローチでは静的なものの約1000倍の音素が生成されることが判明しました。 15語以上のフレーズの場合のみ、静的メソッドは動的メソッドに「追いつきます」。

ビデオの吹き替えの問題は、新しい映画がリリースされるたびに発生します。他の国で上映するには吹き替えが必要ですが、唇の動きと可聴音声のわずかな違いでも、視聴時に不快感を与える可能性があります。このため、スクリプトの翻訳者は、新しいテキストを作成するときに多くのトリックを実行する必要があります。新しい方法では、短いフラグメントでも、関連する何千ものフレーズの選択を自動的に生成できます。これにより、俳優の表情によく一致するテキストを書く問題が緩和されます。

トピックによって人気があります

人気の投稿