Meta、音声とテキストに両対応の翻訳AI「SeamlessM4T」を開発─約100言語の文字や音声を認識

Metaは現地時間2023年8月22日、音声とテキスト双方に対応した翻訳用のマルチモーダルAI「SeamlessM4T」の開発を発表した。

「SeamlessM4T」は、言語の障壁を取り除くために開発された多言語基盤モデル。約100言語のテキストと音声を理解し、翻訳結果をテキストまたは音声でリアルタイムで出力できるほか、複数の言語が混在している場合も単一の言語に出力できる。なお、音声出力に対応する言語は36言語（日本語を含む）。

368803566 587968879983012 8159135374080052391 n

同社はこれまで、200言語をサポートするテキストからテキストへの翻訳モデル「No Language Left Behind （NLLB）」や1,100以上の言語に対応する音声認識モデル「Massively Multilingual Speech（MMS）」などを開発。このたびの「SeamlessM4T」は、これらの開発から得られた知見をもとに開発された。

なお、同社は、「SeamlessM4T」の実用化のために、文章数百億分のウェブデータと400万時間分の音声を収集しアライメントした「SeamlessAlign」データセットを作成。さらに、学習には443,000時間に及ぶ音声とテキストから作成した約29,000時間の音声対音声アライメントを作成したという。

368798207 671112214955968 27445120162469134 n

「SeamlessM4T」は現在、研究者や開発者向けに提供を開始しており、デモページも公開中。また、Metaでは、公開に併せて、265,000時間に及ぶ音声とテキストのアライメントを収集したマルチモーダル翻訳データセット「SeamlessAlign」の提供も開始している。

同社では今後、「SeamlessM4T」により、他言語の話者と効率的なコミュニケーションを実現する大規模なユニバーサル翻訳システムの構築を目指すとしている。

ニュースリリースはこちら
「SeamlessM4T」デモサイト
「SeamlessM4T」ホワイトペーパー
「data2vec」（Meta）知財記事

この記事のタグ

広告