SottoVoce（ソット・ヴォーチェ）：口パクから声を作る超音波技術

概要

「SottoVoce（ソット・ヴォーチェ、音楽用語：ささやくように）」は、口パク（無発声音声）から超音波で音声を認識し合成するユーザインタフェース。声帯を震わせて、声を出さずとも発話時と同じように口と舌を動かすだけで、顎下に取り付けられたプローブが口腔内の様子を超音波エコーで捉え、映像情報を深層学習モデルに通すことによって発話内容を認識し、合成音声を出力する。

これまでも口パクから音声認識を行う技術は開発されてきたが、口唇・顔を撮影する方式や筋電図で口腔付近の筋肉の動きを推定する方式では携帯性・インタラクティブ性の限界や、外部環境ノイズによる認識精度低下の課題があった。一方「SottoVoce」の場合、利用者はウェアラブルデバイスとしてこれを装着し、コンピュータからのフィードバックに基づいてインタラクティブに口パクを調整し、精度を逐次改善できる。

将来的には、咽頭や声帯に機能障害のある人が声によるコミュニケーションを取り戻すための支援技術として、あるいは骨伝導性イヤホン（またはオープンエアイヤホン）との組み合わせで公共の場でも声を出さずに対話できる新たな技術基盤として、幅広く応用されることが期待されている。

引用元: https://youtu.be/j5xWL4MpB0U

なぜできるのか？

音響特徴を捉える「深層学習」

得られた超音波画像を畳み込みニューラルネットワークと呼ばれる深層学習手法によって音響を特徴づけるベクトル情報に変換する。この処理を画像系列（順序のある複数の画像）に順次適用して、音響を特徴づけるベクトル情報を複数生成する（音響特徴ベクトル列）。これをGriffin Lim手法(*1)で音声波形に復元しオーディオスピーカーで出力する。

(*1) Griffin Lim手法：位相復元手法と呼ばれる手法のひとつで、一度分解した波形成分から最終的に出力する音声を合成できる。

人間とコンピュータが歩み寄る「Human-AI Integration」

利用者は口パクを調整してうまく音声になるように歩み寄ることができる。つまり、ニューラルネットワークが学習しているだけでなく、フィードバックを通じて利用者側も学習している。これは人間とAIとが一体化した新しいインタラクションの方向を示しているともいえ、これを「人間とAIの統合（Human-AI Integration）」と呼ぶ。この統合によって精度が飛躍的に改善していく。

相性のいい産業分野

生活・文化: 電車内など閉所でパニック状態になったとき声を出さずに助けを求められるヘルプカードならぬ「ヘルプボイス」
メディア・コミュニケーション: 発信者が声に出さずに合成した音声データを遠隔地に飛ばし、受信者はイヤホンで聞きとることで、外部に声を一切漏らさずにコミュニケーションが成立する「テレパシー」
アート・エンターテインメント: 話者の声を再現する知財「コエステーション」との掛け合わせを通じて、声帯に支障をきたしてもいつまでも歌い続けられる歌手業界

この知財の情報・出典

この知財は様々な特許や要素技術が関連しています。
詳細な情報をお求めの場合は、お問い合わせください。