音声言語から手話の動きを連続して生成するフレームワークを英研究チームが開発

テクノロジーの進化による、視覚・聴覚・音声にまつわるハンディキャップへの克服は医療の分野のみならず日常的なコミュニケーションの場においても実装が期待されています。近年だと、声質を再現するハンズフリーの人工喉頭Syrinxや、口パクから声を作る超音波技術SottoVoce（ソット・ヴォーチェ）など、言語機能に障害がある使用者が能動的に会話に参加できるきっかけとなる知財が、日本でも生まれています。

そんな中、英サリー大学の研究チームは「Progressive Transformers for End-to-End Sign Language Production」という、深層学習で音声言語から手話の動きを生成するフレームワーク（Sign Language Production、SLP）を開発しました。

音声言語から手話の動きへ画像や映像を変換する研究はこれまでも行われてきましたが、話し言葉から変換された手話はリアルタイムでコミュニケーションができるような滑らかなものではありませんでした。しかし今回の手法では、連続的な流れの手話ポーズシーケンスを生成することが可能になったとのことです。

映像を見ても、話し言葉が手話のモーションに画像変換されている様子がわかります。
話し言葉のシーケンスを手話表現に紐付けし、3Dスケルトンポーズへ変換するプログラムが組まれているとのこと。

この手法によって生成した手話の動きは実際の手話と比較した際にほぼ一致し、特に手話間の滑らかな遷移が正しく生成されたといわれています。

手話というコミュニケーション方法を全ての人が習得することはたやすいことではありませんが、例えばこの技術が街中のモニターやスマートフォンのアプリケーションに実装される未来が来れば、言語障害によるコミュニケーションの壁は従来より乗り越えやすいものになるのかもしれません。
人との接し方がまだまだ制限されている昨今ですが、一方ではこういった新たな交流の方法やテクノロジーが研究・開発されている点にも着目していきたいですね。

記事原文はこちら

この記事のタグ

広告