名古屋大学、世界初、相手の話を聞きながら相づちや会話ができる日本語対応の音声対話モデル「J-Moshi」を開発

名古屋大学大学院情報学研究科の東中竜一郎教授の研究グループは、「はいはい」、「うんうん」など相づちを打ちつつ相手の話を聞きながら話すことのできる、世界初の日本語で利用可能なFull-duplex音声対話モデル「J-Moshi」を開発した。「J-Moshi」のサンプル音声も公開されている。

「J-Moshi」は、人工知能（AI）の音声対話性能を飛躍的に高め、まるで人間のような音声対話を実現する。雑談や接客など、さまざまな場面での利用が期待されるとしている。

人間同士の対話における発話のオーバーラップや相づちなど、同時双方向的な特徴をモデル化できるFull-duplex音声対話システムは、近年注目を集めている。しかし、日本語においてこうした音声対話システムはほとんど見られず、開発に関する知見が不足しているのだという。

01 jmoshi

「J-Moshi」は、ユーザーが話している間でも発話や「はいはい」、「うんうん」などの相づちが可能。英語における7BパラメータのMoshiをベースとし、日本語の音声対話データでの追加学習によって構築された。人間同士の対話におけるような自然なターンテイキングをリアルタイムに実現する。

J-Moshiのサンプル音声はこちら
ニュースリリースはこちら
プレスリリースはこちら（PDF）

この記事のタグ

広告