News
2023.06.23
知財ニュース
NTT、画像や音声指定で興味のある話だけを抜き出す技術「ConceptBeam」を開発
日本電信電話株式会社(以下NTT)は、画像や音声などを指定することで、会話内容から意味で音声信号を抽出する技術「ConceptBeam」を開発した。
「ConceptBeam」は、複数の音声が混在した信号から、目的の音声を分離し取り出せる世界初の技術。画像や音声など目的の対象を事前に指定することで、従来の音源分離の手法のような音の到来方向などに依存せずに適用可能。音声が混ざって聞き取りづらい時も、画像や音声などで興味の対象を指定することで、意味内容から目的の音声を的確に抽出してくれる。
「ConceptBeam」では、入力された画像や音声のデータはベクトルに変換。ニューラルネットワークによる訓練をもとに、関連性の強いデータを近傍に、関連性の弱いデータを遠方に配置する「特徴空間」を構築し、音声抽出に活用する。なお、音声を抽出するためのフィルタリングには、聞きたい人の音声のみを分離する同社の技術「SpeakerBeam」を使用。加えて、「ConceptBeam」では特定の区間内で話者の音声を的確に抽出する技術が新たに適用されている。
本成果は、6月1日から2日まで開催された「NTTコミュニケーション科学基礎研究所オープンハウス2023」で発表された。同社では、会話から有益な情報を抽出し活用できる社会の実現をめざすとしている。
Top Image : © 日本電信電話 株式会社