No. 235 口パクから声を作る超音波技術

SottoVoce(ソット・ヴォーチェ)

「SottoVoce(ソット・ヴォーチェ、音楽用語:ささやくように)」は、口パク(無発声音声)から超音波で音声を認識し合成するユーザインタフェース。声帯を震わせて、声を出さずとも発話時と同じように口と舌を動かすだけで、顎下に取り付けられたプローブが口腔内の様子を超音波エコーで捉え、映像情報を深層学習モデルに通すことによって発話内容を認識し、合成音声を出力する。

これまでも口パクから音声認識を行う技術は開発されてきたが、口唇・顔を撮影する方式や筋電図で口腔付近の筋肉の動きを推定する方式では携帯性・インタラクティブ性の限界や、外部環境ノイズによる認識精度低下の課題があった。一方「SottoVoce」の場合、利用者はウェアラブルデバイスとしてこれを装着し、コンピュータからのフィードバックに基づいてインタラクティブに口パクを調整し、精度を逐次改善できる。

将来的には、咽頭や声帯に機能障害のある人が声によるコミュニケーションを取り戻すための支援技術として、あるいは骨伝導性イヤホン(またはオープンエアイヤホン)との組み合わせで公共の場でも声を出さずに対話できる新たな技術基盤として、幅広く応用されることが期待されている。

SottoVoceは、ヒューマン・コンピュータ・インタラクション(HCI)分野の世界トップ国際会議「ACM CHI 2019」において「Honourable Mention Award」を受賞した。

SottoVoceで合成された音声によって「Amazon Echo」などの既存のスマートスピーカーを制御できることを確認している。

なぜできるのか?

音響特徴を捉える「深層学習」

得られた超音波画像を畳み込みニューラルネットワークと呼ばれる深層学習手法によって音響を特徴づけるベクトル情報に変換する。この処理を画像系列(順序のある複数の画像)に順次適用して、音響を特徴づけるベクトル情報を複数生成する(音響特徴ベクトル列)。これをGriffin Lim手法(*1)で音声波形に復元しオーディオスピーカーで出力する。

(*1) Griffin Lim手法:位相復元手法と呼ばれる手法のひとつで、一度分解した波形成分から最終的に出力する音声を合成できる。

人間とコンピュータが歩み寄る「Human-AI Integration」

利用者は口パクを調整してうまく音声になるように歩み寄ることができる。つまり、ニューラルネットワークが学習しているだけでなく、フィードバックを通じて利用者側も学習している。これは人間とAIとが一体化した新しいインタラクションの方向を示しているともいえ、これを「人間とAIの統合(Human-AI Integration)」と呼ぶ。この統合によって精度が飛躍的に改善していく。

相性のいい分野

ヘルスケア
電車内など閉所でパニック状態になったとき声を出さずに助けを求められるヘルプカードならぬ「ヘルプボイス」
コミュニケーション
発信者が声に出さずに合成した音声データを遠隔地に飛ばし、受信者はイヤホンで聞きとることで、外部に声を一切漏らさずにコミュニケーションが成立する「テレパシー」
エンターテインメント
話者の声を再現する知財「コエステーション」との掛け合わせを通じて、声帯に支障をきたしてもいつまでも歌い続けられる歌手業界

知財情報

主な知財ホルダー:暦本純一、木村直紀、河野通就(東京大学大学院情報学環・学際情報学府/ソニーコンピュータサイエンス研究所)

この知財は様々な特許や要素技術が関連しています。
詳細な情報をお求めの場合は、お問い合わせください。

知財ハンター

小髙 充弘 Mitsuhiro Odaka
Media Artist / Konel Inc.

1991年生、神戸出身。学士(医学,理学)。広義の「感染」に関するメディアアート制作を行う。病原体、行動、モラル等が、複雑に跨ぎ合うつながり構造の上を拡散・極性化する現象に関心がある。その関心の下で、データによる予測可能性を超えた逸脱的な意味付けの内部に人間が人間たる規定要因を探したり、疎外された逸脱主体と他との交流の回復がありうるのか探ったりしている。