News

2023.06.21

知財ニュース

Google、わずか0.5秒で30秒分のリアルな音声データを生成─AIツール「SoundStorm」の研究を発表

Google SoundStorm

Googleは、テキストと音声プロンプトから、効率的に人間のようにリアルな音声を生成できる革命的なAIツール「SoundStorm」の研究を発表した。

「SoundStorm」とは、Googleが開発した自然な音声と音楽を生成できるAIシステム「AudioLM」のデータを受け取り、より高品質なオーディオを高速で生成するもの。書かれたテキストからオーディオコンテンツを生成したり、リアルなPodcastを作成したりするなど、アプリケーションに新たな可能性をもたらすという。

今回の研究では、「SoundStorm」が「AudioLM」よりも音声と音響条件の一貫性が高く、音声生成スピードをはるかに上回るという能力が実証された。

image2

具体的には、TPU-v4ハードウェアにおいて、わずか0.5秒で30秒のオーディオを生成するほど、音声の生成速度が大幅に向上。それは「AudioLM」の音響ジェネレーターより二桁高速の速さだという。

また、「SoundStorm」は記録されたテキストとプロンプトの両面から音声を合成するため音響の一貫性が高く、まるで本物のような音声を生み出す。

image1

既存ツールを超越する性能に期待が寄せられる一方で、Googleは対処すべき課題についても次のように示唆した。

「生成されるオーディオサンプルは、アクセントや音声の特徴など、トレーニングデータに存在するバイアスの影響を受ける可能性がある。また、声を模倣する機能により、多数の悪意あるアプリケーションが組み込まれる可能性があり、生体認証の回避やなりすましの目的で声を真似する能力が悪用される可能性も否めない。誤用に対する保護措置を講じることが必要なことはもちろん、将来的には合成音声を検出するための音声透かしなどの追加アプローチも視野に入れ研究を進めていく」。

AI倫理と究極の性能を追求する今後の研究に注目が集まる。

Googleの発表はこちら

Top Image : © Google

広告