News
2022.05.17
知財ニュース
選択した風景画像にピッタリの音をAIが探してくれるウェブサービス「Imaginary Soundscape」の最新版が無料公開

AIの活用による創造性の発展に取り組む株式会社Qosmo(コズモ)は、マルチモーダル深層学習技術を応用した自社アルゴリズムを活用し、入力された画像に適切なサウンドクリップを見つけてくれるウェブサービス、「Imaginary Soundscape(イマジナリー・サウンドスケープ)」の最新バージョンを、日英両言語にて無料公開した。また、本サービスのコア技術である「Img2Sound(イメージtoサウンド)」エンジンのライセンスの提供を開始した。
人は、海辺の写真からはさざなみの音、渋谷のスクランブル交差点の写真からは信号の音など、目にした風景写真からその場にいたら聞こえるであろう音を想像することがある。
「Imaginary Soundscape」は、AIを活用することで、そうした人が無意識のうちに想像する音をユーザーが選択した画像に合わせて適切に選び出すウェブサービス。2017年の開始以来高い注目を集め、利用者は全世界で50万人近くに上るという。
今回のアップデートにおいて、モデル精度の向上、音声データベースの拡充、UIの向上の3つが変更された。
これまで使用していた識別モデルをベースにしたモデルから、コントラスティブ学習(対照学習)によるマルチモーダルなモデルに変更し、マッチングの対象となるサウンドデータのライブラリも大幅に拡充。これにより、今までよりも多様なニュアンスの違いに対してマッチング感度を高めることができるという。
また、初めて利用するユーザー様にも親しみやすいようにインターフェースを向上し、これまでの英語表記に加え、日本語の翻訳も追加された。
そして同社では、「Imaginary Soundscape」のコア技術である「Img2Sound(イメージtoサウンド)」エンジンのライセンス提供を開始。この技術では、コントラスティブ学習(Contrastive Learning)と言われる手法を応用した比較学習を行っており、これにより、テキストと音、ビデオと音、など、性質の異なる異なる2種類の類似性を定量化することができるとのこと。
Top Image : ©︎ 株式会社 Qosmo
この記事のタグ