

Googleのスペシャリストは、合成された英語の音声の何千ものレコードを含む大規模なデータセットを集めました。合計で、数十の「音声」がデータベースで利用可能です。これについて詳しくは、同社のブログをご覧ください。これまでのところ、データセットは開発者、つまり合成音声と実際の音声を区別するための自動システムを作成するコンテストの参加者のみが利用できます。
音声合成(テキスト読み上げ)の技術により、印刷されたテキストから音声信号を形成することが可能になります。このため、最終モデルに音声を使用する人は、必要なすべてのテキストを完全に発音する必要はありません。データの代表的なサンプルのみが必要であり、そこから十分な数の音素を選択してさらに高品質にすることができます。合成。現在、このようなテクノロジーは主に音声アシスタントの吹き替えに使用されています。たとえば、Yandex社の音声アシスタントであるAliceがどのように話し方を学んだかについては、記事「Alice、saysomething」で読むことができます。
音声合成は常に改善されています。たとえば、2017年12月、Googleの開発者は、人間の音声とほとんど区別がつかない話し言葉を生成できるシステムを作成しました。このような効果的なテクノロジーの作成と使用は、ユーザーデータのプライバシーに関する重要な問題を提起します。適切に統合することで、攻撃者は他人の声をもっともらしくコピーして、自分の目的に使用できます。
これを防ぐために、Googleは合成音声サンプルの大規模なデータベースを公開しています。これには新聞からの数千の抜粋が含まれており、68の合成音声で「読み取られます」。フレーズは英語で、いくつかの異なるアクセントを模倣しています。
これまでのところ、データセットは、合成音声と実際の音声を自動的に区別するトレーニングシステム専用の自動話者認証コンテストの参加者のみが利用できます。コンテストの結果は今年の9月に発表されます。データがサードパーティの開発者に利用可能になるかどうかはまだ不明です。
効果的な音声合成に加えて、現在、顔の転送や人と人の間の動きさえも可能にするシステムが作成されています。たとえば、昨年の夏、NVIDIAは、人間の動きをあるビデオから別のビデオの人体に転送できるニューラルネットワークを作成しました。