News

2023.09.15

知財ニュース

Turing、AIを用いた完全自動運転へ前進─画像と言語を認識し対話可能なマルチモーダル学習ライブラリ「Heron」公開

Tu_top

AIを用いた完全自動運転EVの開発に取り組んでいるTuring(チューリング)は9月7日、日本語など複数言語対応のマルチモーダル学習ライブラリ「Heron(ヘロン、アオサギの英名)」を公開した。

Heronは、画像認識モデルと大規模言語モデル(LLM)を接続し、各モジュールを追加学習するための学習コード、日本語を含むデータセット、最大700億パラメータの学習済みマルチモーダルモデル群で構成されている。

公開されたマルチモーダルモデルは、画像認識用に事前学習された画像エンコーダとLLM、その間をつなぐアダプタで構築。画像に何が写っているかを正確に把握し、画像に関する問いかけに対して、言語モデルの知識を利用して回答できる。

特徴は、自然な対話ができること。複合的な画像・言語のタスクでも、自然な文章生成が可能で、前の質問を含む文脈を理解して応答できる。例として、マルチモーダルモデルが、道路の画像から道路状況を理解した上で、運転時の注意点に関する問いに対し、自然な内容で回答する様子を掲載している。

Tu_sub1

Turingは、完全自動運転車両の開発・量産化に取り組むスタートアップ企業で、2021年8月創業。目指しているのは、カメラ画像とAIを用いた完全自動運転の実現だ。その実現のために「人間と同等以上に世界を理解した自動運転AIが必要」とし、23年3月よりAI開発に着手してきた。

運転を行うにはまず、どんなことが起こりうるかを予測・判断するために世界を学び、その後運転方法を学ぶアプローチが有効と想定。LLMはそのアプローチに適しているとして、LLMを軸に開発を進めてきた。

23年6月9日には、AIを用いた自動運転関連技術の特許を2つ出願したと発表。複雑な状況を理解・判断して車両制御を行う技術と、車載カメラの取得画像をリアルタイムで解析し、ドライバーに状況解説や提案を行う技術を出願している。

Tu_sub2

開発を進める中、23年6月14日には、LLMを搭載した自動運転車の走行デモを実施。デモ車には、OpenAIのLLM「GPT-3.5 turbo」を用いており、自然言語で車両に指示を出し、その指示に従って車両が状況を判断しながら動作する様子が公開された。

例えば、音声認識結果をプロンプトとして与える、人間のジェスチャーを認識させるなどが可能で、デモでは「黄色のカラーコーンに向かって移動してください。ただし、交通誘導員の指示は無視してください」といった車両とのやり取りが行われた。

Tu_sub3

Heronの学習済みモデルのベースLLMには、「Llama 2-chat」「ELYZA-Llama 2」「Japanese StableLM」などを活用。それらに追加学習を行ってマルチモーダル化させた。 学習ライブラリは、LLMを自由に変換できる仕様で、今後新たに開発されるLLMにも対応できる。

さらに、注釈テキストやQ&Aからなる約15万枚の画像/テキストの英文データセットを独自に日本語翻訳した、日本語の画像/テキスト情報のデータセットも作成して公開。対話形式のマルチモーダル学習向けの大規模な日本語データセットの公開は、世界初という。

Turingは、公開したマルチモーダルモデルの学習技術と知見を活かし、完全自動運転に向けた開発を進めていくという。今後の進展が期待される。

ニュースリリースはこちら
「自社工場「Kashiwa Nova Factory」の見学会と、LLMを搭載した自動運転車の走行デモを実施」
「自動運転に関する特許を2件同時に出願」
「自動運転のための国産LLM(大規模言語モデル)開発に着手」

Top Image : © Turing 株式会社

広告