世界初、NTTが「音の波」を高精細に見える化する技術を開発―ハイスピードカメラとAIを活用、「音のデジタルツイン」想定

NTTは2024年6月17日、「音の波」を高精細に見える化する技術を開発したと発表した。ハイスピードカメラとレーザー光、AIを用いた技術で、空気中に伝わる目に見えない音の波を動画像で可視化する。光を用いて音をセンシングする「光学的音響計測技術」において、深層学習モデルを用いた高精細な音の見える化は世界初という。音の新たなセンシング手段として、音響デバイスの開発や騒音評価などへの展開を見込んでいる。

Ntts_sub1

音は生活の中で身近な存在であり、スピーカーやヘッドホン、オンライン会議、超音波を使ったセンサーなどで広く活用されている。NTTはこれまで、光を用いて音場（音が存在し、伝わっていく空間）を見える化する技術「光学的音場イメージング」の研究を進めてきた。研究を通じて、誰もが心地よい最適な音環境を創出することを目指している。だが、音の物理特性により、高精細な音の見える化には課題があった。

音は空気の圧力変動であり、ある地点で発生した音は、音の波となって空気中を伝わっていく。その様子は、石を投げ入れた水面に、一定速度で波紋が広がる様子に似ているが、音の波は直接見ることができない。また、反射や障害物による回折をともなって、空気中を複雑に伝搬する。そのため、音がどのように発生して伝わっていくかの把握が難しい。

そこでNTTは「光学的音場イメージング」技術の研究を推進。音を光の明るさに変換する特殊な装置を用い、瞬間の音の波紋を画像で記録する技術の開発を進めてきた。同技術では、測定したい音場内にレーザー光を照射し、光干渉計などを用いて、音による光の微弱な変化を検出。光の変動をカメラで撮影し、音の波を画像で可視化する。

その空間分解能（識別性能）は高く、空間内の音を検出・測定する一般的な装置であるマイクロホンアレイの約100倍に及ぶ。しかし、小さな信号の変化を検出できる一方で、光学的なノイズの影響を大きく受ける。そのため従来技術では、高感度・高精細な音の見える化は困難だった。

Ntts_sub2

同社は今回、従来技術をベースに、ハイスピードカメラと独自に考案した深層学習モデルを用いた。毎秒数千～数十万フレームの速さで撮影可能なハイスピードカメラを用いて、音の波を動画像でキャッチ。深層学習モデルで、動画像に含まれる不要なノイズを除去する。それにより、従来技術では検出できなかった、微弱な音の波を高感度に抽出。音の波の高精度な可視化を実現した。

Ntts_sub3 音場イメージングの結果。各画像はある瞬間の音場を表しており、色が音の大きさに対応している。AI処理なしの画像に含まれているカメラノイズがAI処理によって除去されている。

深層学習モデルの構築にあたっては、音の物理的な性質にもとづく訓練用の画像を人工的に生成。生成したデータセットでニューラルネットワークの学習を行った。さらに、動画像を周波数ごとに独立処理するアルゴリズムを独自に構築。従来手法を大幅に上回る、高精度なノイズ除去処理を実現している。

Ntts_sub4

Ntts_sub5

NTTは、今後も引き続き本技術の研究開発を進める方針。デバイス開発や従来技術の高効率化への貢献の先に、「音のデジタルツイン」技術への活用を見据えている。

「音のデジタルツイン」の発想は、同社が提唱している「IOWN（アイオン）構想」のデジタルツインコンピューティングにもとづく。「IOWN構想」で目指しているのは、これまでの情報通信システムの変革と、現状のICT技術の限界を超えた新たな情報通信基盤の実現。「音のデジタルツイン」では、空間に存在する音を余すところなく完全にデジタル化し、新たな仕組み構築を目指している。

ニュースリリースはこちら
 関連論文「Deep sound-field denoiser: optically-measured sound-field denoising using deep neural network」
NTT・研究開発「IOWN構想とは？」

この記事のタグ

広告