SottoVoce(ソット・ヴォーチェ)
「SottoVoce(ソット・ヴォーチェ、音楽用語:ささやくように)」は、口パク(無発声音声)から超音波で音声を認識し合成するユーザインタフェース。声帯を震わせて、声を出さずとも発話時と同じように口と舌を動かすだけで、顎下に取り付けられたプローブが口腔内の様子を超音波エコーで捉え、映像情報を深層学習モデルに通すことによって発話内容を認識し、合成音声を出力する。
これまでも口パクから音声認識を行う技術は開発されてきたが、口唇・顔を撮影する方式や筋電図で口腔付近の筋肉の動きを推定する方式では携帯性・インタラクティブ性の限界や、外部環境ノイズによる認識精度低下の課題があった。一方「SottoVoce」の場合、利用者はウェアラブルデバイスとしてこれを装着し、コンピュータからのフィードバックに基づいてインタラクティブに口パクを調整し、精度を逐次改善できる。
将来的には、咽頭や声帯に機能障害のある人が声によるコミュニケーションを取り戻すための支援技術として、あるいは骨伝導性イヤホン(またはオープンエアイヤホン)との組み合わせで公共の場でも声を出さずに対話できる新たな技術基盤として、幅広く応用されることが期待されている。
SottoVoceは、ヒューマン・コンピュータ・インタラクション(HCI)分野の世界トップ国際会議「ACM CHI 2019」において「Honourable Mention Award」を受賞した。
SottoVoceで合成された音声によって「Amazon Echo」などの既存のスマートスピーカーを制御できることを確認している。