No. 007 十人十色の声色を再現する音声合成

コエステーション

コエステーションは、テキストデータをまるで人が話しているかのような音声データに変換することができる音声合成技術である。従来は、音声データの再現は、トーンの種類が限定的だったが、コエステーションは声色や感情、口調など、多様な表現が再現可能だ。

なにがすごいのか?

  • スマホアプリで声を入力していくことで「声辞書」を育てていける
  • どんなテキストも自分の声で再現できる
  • 感情・速度・声の高さや太さをパラメーターで操作できる

なぜ生まれたのか?

スマートスピーカーの登場に象徴されるように、音声テクノロジーはここ数年で大きく進化しているが、ナレーションやアナウンスの声色のバリエーションは未だに限定的なのが現実だ。
現在使われているText to speechは、読み上げの正確性は向上してきているものの、感情や個性まで伝わるレベルには達していない。
コエステーションは、スマホアプリとしてリリースされたことで一般生活者を技術の進化に巻き込み、新しい未来を切り開いていると言える。

妄想プロジェクト

蘇る名人

落語界では多くの名人が存在するが、惜しいことに残された音源がわずかしかない故人も多い。現代に創作された演目や、音声の残っていない演目を当人達に噺してもらうのは本来ならば不可能なことだ。
しかしコエステーションの登場によって、少しでも音声データが存在していれば、それを解析し忠実に再現することができる。
パラメーターを自由に変えることもできるので、時には、名人が風邪を引いた時の声も再現できるかもしれない。

実現プロジェクト

AIカビラくん

2018FIFA W杯ロシア大会に合わせ、フジテレビのオフィシャルアナウンサーであるジョンカビラ氏の声で勝敗予想を語ってくれる、会話型AIロボットが制作された。
新宿駅やお台場にて展示され、多くの人と会話を行った。Webではチャット型のコミュニケーションを同時展開。
(制作:Konel)

なぜできるのか?

HMM方式をベースとした独自の音声合成

統計モデルに基づく音声合成方式である、隠れマルコフモデル (hidden Markov model: HMM)に工夫を加えた独自方式を採用することで、より自然な音声合成を可能としている。

相性のいい分野

コミュニケーション
チャットやメールなどのテキスト情報を、送り主の声色で読み上げ
言語
機械的な音声ではなく自分の声色で母国語から外国語に翻訳再生
冠婚葬祭
晴れ舞台やお悔やみの場で、故人やその場にいない人の声を再現
エンターテインメント
推しのアイドルの声が名前を読んで起こしてくれる目覚まし時計

知財情報

主な知財ホルダー:株式会社 東芝デジタルソリューションズ

この知財は様々な特許や要素技術が関連しています。
詳細な情報をお求めの場合は、お問い合わせください。

知財ハンター

出村 光世 Mitsuyo Demura
Producer / Konel Inc.

1985年石川県金沢市生まれ。早稲田大学理工学部経営システム工学科卒。アート/プロダクト/マーケティングなど領域に縛られずにさまざまなプロジェクトを推進。プロトタイピングに特化した「日本橋地下実験場」を拠点に制作活動を行い、国内外のエキシビションにて作品を発表している。自然現象とバイオテクノロジーに高い関心がある。