

Googleの開発者は、リカレントニューラルネットワークの作業に基づく音声合成システムであるTacotron2を発表しました。 arXiv.orgのプレプリントで詳細に説明されているアルゴリズムは、テキストから生成されたスペクトログラムに基づいて、人間の音声に可能な限り近い音声を再構築します。ここで、アルゴリズムがどのように機能するかの例を聞くことができます。
グーグルは長い間人間の音声を合成するためのシステムを開発してきました。たとえば、畳み込みニューラルネットワークに基づくWaveNetシステムは、音声を生成するときに、トレーニングサンプルからの個々の言語トークンの音だけでなく、韻律や音節や単語の長さなどの言語パラメータも考慮に入れます。ただし、このようなアルゴリズムが機能するには、テキストの複雑な予備分析とトレーニングセット内の膨大な量のデータが必要です。
Googleの開発者によって発明された音声合成への別のアプローチは、スペクトログラムの形式での音声情報の表現です(周波数対時間の視覚化)。このアプローチにより、詳細な言語分析を取り除くことができ、Seq2Seq(シーケンスからシーケンス)モデルを使用して開発された1つのニューラルネットワーク(開発者はその最初のバージョンをTacotronと呼びます)を使用して実行できます。
Jonathan Shenからの入力を使用してGoogle開発チームによって提示されたアルゴリズムは、2つのニューラルネットワークを使用します。最初のニューラルネットワークは、受信したテキストを個別のトークン(文字、一時停止、句読点)に分割し、スペクトログラムの形式で視覚化します。2番目のニューラルネットワークは、WaveNetアルゴリズムを使用してそれらに基づいてオーディオを合成します。

Tacotron2アーキテクチャ
新しいアルゴリズムは、多くの点で既存のすべてのアルゴリズムよりも優れています。たとえば、Tacotron2は、セマンティクスに基づいて同音異義語を認識し(読んだり理解したりする動詞のさまざまな形式を区別し、砂漠の名詞または動詞という単語を示します)、句読点の代わりにイントネーションを一時停止したり、大文字で書かれた単語を強調したりできます。元のテキストで。
さらに、アルゴリズムによって合成された音声は、実際には人間の音声と何ら変わりはありません。開発の作者は、実際には互いに異ならないペアのオーディオ録音のいくつかの例を提示しました。
-Tacotron2によって合成された抜粋
-人が話す一節
開発者はまた、システムを使用して作成した音声サンプルを1〜5のスケールで人々が話した同じフレーズと比較して8人に評価するように依頼しました(1は人間の音声に最も類似していません)。 Tacotron2の平均オーディオスコアは4.53でした。これに対して、同じ人の平均音声スコアは4.58で、以前のバージョンのTacotronは4.41でした。
作業の著者は、新しいアルゴリズムは人工音声合成の分野で現時点で最も進んでおり、音声アシスタントの作業を改善するために使用できると主張しています。
最近、DeepMind(Alphabet Inc.の一部門-Googleの親会社)の専門家が、教師なしでオブジェクトを認識できる新しいコンピュータービジョンシステムを発表しました。