News

2023.06.27

知財ニュース

2秒の音声からリアルに合成─Meta、6言語対応の音声生成AIモデル「Voicebox」を発表

Meta Voicebox

Meta AIは6月16日、新たな音声生成AIモデル「Voicebox」を発表した。
 
「Voicebox」は、たった2秒のサンプルから多様なスタイルの音声サンプルを生成できる音声生成AIモデル。具体的には、入力した音声やテキストを元に、6つの言語での音声合成やオーディオクリップの作成、ノイズ除去、コンテンツ編集、音声スタイルの変換などを行うもの。
 
対応言語は英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語の6つ。

「Voicebox」は収録した音声と書き起こしから学習し、違和感のない自然な音声合成を行える。「Flow Matching」と呼ばれるその手法は、米Microsoft(マイクロソフト)が開発する最新の音声合成AIモデル「VALL-E」と比べ、20倍もの高速化を実現した。

さらに、ノイズの消去や音声の補完、言い間違いの単語の修正などもでき、例えばノイズとしてデータに入り込んだ犬の鳴き声だけを消去することや、特定の単語だけを言い換えることが可能だ。

入力したテキストを出力したい音声で読み上げる機能も搭載。1つの文章を様々な声で読み上げる「Diverse speech sampling」により、6言語での読み上げに対応する。

「Voicebox」は将来的に、話すことができない人の音声として活用するほか、バーチャルアシスタントが使用する音声をカスタマイズする際に役立てるなど、幅広い用途が想定されている。
 
ただ、現時点でVoiceboxのモデルやコードは一般公開されていない。MetaがVoiceboxと共に公開している論文等の中で、「この技術が、誤用や意図しない害をもたらす可能性がある」と危惧していることが理由で、論文とサンプルのみ公開に限定。今後はシステムの安全構築にも力が入れられるだろう。

ニュース記事はこちら

Top Image : © Meta

広告