Meta、音楽生成AIモデル「MusicGen」をオープンソースで無料公開─テキストや既存の曲から音楽を生成

米Metaは現地時間2023年6月9日、音楽生成AI「MusicGen」を発表した。

「MusicGen」は、AIにより、プロンプト（命令文）や既存のメロディーから音楽を生成できる音楽自動生成ツール。テキストにより作曲したい音楽の説明文を入力すると約12秒のオーディオを作成できるほか、口笛や、ハミング、既存の曲（MP3形式）などからメロディーの候補となる音源も参照できる。

Metaによると、「MusicGen」のトレーニングには、大規模なストックメディアライブラリであるShutterStockとPond5の音楽データを利用。1万件の高品質な音楽トラックのデータセットと、2万時間分のライセンス音楽を学習させたという。

また、深層学習モデルには、Googleが2017年に発表した「Transformer」をベースに使用、Googleの音声生成AI「MusicLM」とは異なり、自己教師型でセマンティック（意味論的）表現が不要とのこと。

なお、「MusicGen」は、ディープラーニングによる音声処理と生成のためのライブラリ「Audiocraft」の一部として、GitHubでオープンソース化されており、商用利用も可能。ただし、「Audiocraft」のインストールには、少なくとも16GBのメモリを備えるGPUとPyTorch 2.0.0、Python 3.9が必要とのこと。

「MusicGen」論文はこちら
「MusicGen」オープンソースはこちら
「Googleがテキストから音楽を作れる音楽生成AIモデル「MusicLM」を発表─リリース予定はなし」（ニュース記事）

この記事のタグ

広告