News
2023.09.07
知財ニュース
Meta、音声とテキストに両対応の翻訳AI「SeamlessM4T」を開発─約100言語の文字や音声を認識
Metaは現地時間2023年8月22日、音声とテキスト双方に対応した翻訳用のマルチモーダルAI「SeamlessM4T」の開発を発表した。
「SeamlessM4T」は、言語の障壁を取り除くために開発された多言語基盤モデル。約100言語のテキストと音声を理解し、翻訳結果をテキストまたは音声でリアルタイムで出力できるほか、複数の言語が混在している場合も単一の言語に出力できる。なお、音声出力に対応する言語は36言語(日本語を含む)。
同社はこれまで、200言語をサポートするテキストからテキストへの翻訳モデル「No Language Left Behind (NLLB)」や1,100以上の言語に対応する音声認識モデル「Massively Multilingual Speech(MMS)」などを開発。このたびの「SeamlessM4T」は、これらの開発から得られた知見をもとに開発された。
なお、同社は、「SeamlessM4T」の実用化のために、文章数百億分のウェブデータと400万時間分の音声を収集しアライメントした「SeamlessAlign」データセットを作成。さらに、学習には443,000時間に及ぶ音声とテキストから作成した約29,000時間の音声対音声アライメントを作成したという。
「SeamlessM4T」は現在、研究者や開発者向けに提供を開始しており、デモページも公開中。また、Metaでは、公開に併せて、265,000時間に及ぶ音声とテキストのアライメントを収集したマルチモーダル翻訳データセット「SeamlessAlign」の提供も開始している。
同社では今後、「SeamlessM4T」により、他言語の話者と効率的なコミュニケーションを実現する大規模なユニバーサル翻訳システムの構築を目指すとしている。
Top Image : © Meta