data2vec（データトゥベク）：音声・画像・テキストをマルチに処理できる単一AIモデル

概要

「data2vec（データトゥベク）」とは、画像、音声、テキストといった複数のスキルを学習できるAIを用いたマルチモーダル（数種類のデータを統合的に処理する深層学習）システム。AIのアルゴリズムは通常、人間があらかじめ付けた１パターンの正解・不正解のラベルに基づいて学習していく「教師あり学習」を行うが、data2vecは3つの異なる法則による「自己教師あり学習」を行い、外の世界を観察するだけで独自に画像・音声・テキストの構造を把握して学習。将来的には、種別の異なるデータを総合的に学習して環境に順応してくAIの出現に寄与することが期待されている。

data2vec

なぜできるのか？

自己教師あり学習を採用

「data2vec」では、AIを「教師側」「生徒側」の2つのニューラルネットワークの役割に分け、「自己教師あり学習」を採用。教師側には学習させるデータの一部を黒塗りにして伏せる作業を行わせ、生徒側が伏せられた部分を予測して埋めるという作業を繰り返すことで自己学習を深めていく。16個のGPUを組み合わせ、960時間の音声、書籍やWikipediaのページにある数百万の単語、ImageNet（大規模画像データベース）の画像を使ってdata2vecを学習させた。

複雑なテーマを学習するマルチタスクAI

「data2vec」はラベル付きデータに頼らずに、世界のさまざまな側面を学習する機械をつくることができる可能性がある。AIが動画や記事・音声記録を使って、例えばスポーツの試合状況の理解や上手な料理の仕方など複雑で複合的なテーマについて理解させることができる。将来的には、匂い、3Dオブジェクト、ビデオなどの概念をモデル化するために、より広範囲のデータを取り込むことを目指すとしている。

相性のいい産業分野

AI: 人間の言葉や行動を総合的に判断して環境に適応するバーチャルヒューマン
生活・文化: どんなに複雑な料理でも簡単に作れる「AI料理人」
医療・福祉: 膨大な医療データを学習して患者をサポートする介護ロボット
アート・エンターテインメント: 学習した複合体験をテキストに昇華する「AI小説家」
教育・人材: 人間の生徒に教える「AI教師」