Googleがテキストから音楽を作れる音楽生成AIモデル「MusicLM」を発表─リリース予定はなし

Googleの研究部門であるGoogle Researchは2023年1月26日、テキストから音楽を生成するAIモデル「MusicLM」のサンプルを発表した。

「MusicLM」は、AIに学習させた28万時間分に上るトレーニングデータをもとにテキストや文章からそれに忠実な音声や音楽を生成できるAIモデル。「ディストーションの効いたギターリフのバッキングに乗った心地よいバイオリンの旋律」などの複雑なテキストからも音楽を再現できるという。

「MusicLM」では、命令された音楽生成のプロセスを階層的なモデリングタスクとして処理し、24kHz の音楽を生成する。また、トレーニングデータとしては高品質な音楽とテキストのペアのデータセット「Music Caps」を使用している。これにより、ロックや電子音楽などさまざまなジャンルに対応した良質な音楽を生成できるという。

実験では、「MusicLM」が以前のシステムよりも音質とテキスト記述の順守の双方で凌駕していることを実証した。また、テキストとメロディー双方での入力が可能になり、キャプションに記述されたスタイルに従い、口笛やハミングへのメロディ変換も可能になったという。

同社では、今後の研究のサポートのため、ミュージシャンによる英語のキャプション付きの5521曲の音楽サンプルを一般公開している。サンプルには「ベースとドラムがメインのスローテンポのレゲエの歌。サステインギター。ボンゴ。ボーカルはゆったりした感じで表現力豊か」などのテキストに対応した楽曲などの公開のほか、サルバドール・ダリの「記憶の固執」などの著名な絵画とそのレビューに基づいて作成された楽曲が公開されている。

なお、Googleによれば、生成した楽曲の約1％に既存の楽曲が反映されたとのことで、著作権侵害のリスクについて言及している。さらに、トレーニングデータの偏りから文化的な偏りがある可能性があり、現時点ではモデルをリリースする予定はないとしている。

「MusicLM」詳細サイト
「MusicLM」論文はこちら
「MusicLM」サンプルはこちら

この記事のタグ

広告