BeFree：発話できない人でも声で会話できるアプリ

概要

「BeFree」とは、発話ができない人でも声による会話ができるアプリケーションプログラム。対話型生成AIや音声認識、音声合成技術を用いており、声が出せなくても、パネル操作で音声による会話のキャッチボールを楽しめる。特定の状況で声を出せなくなる症状を持つ小学生が、日常生活での音声会話を可能にするツールとして開発した。疾病で声を失った人や、音声機能・聴覚障がいなどを持つ人と、周囲の人とのコミュニケーションを円滑化し、よりよい生活を送ることをサポートすると期待される。

FB_sub

なにがすごいのか？

小学校5年生による最新技術を活用したアプリの企画・開発
生成AIからインスピレーションを得て会話アプリの開発を着想
小学生でも課題解消できる手段としてプログラミングを活用

なぜ生まれたのか？

特定の状況で声を出せなくなる場面緘黙の症状を持つ小学校5年生が、小中高生クリエータ支援プログラム「未踏ジュニア」を通じて開発した。開発者は小2からプログラミングを始め、これまで複数のアプリを構築。2022年2月には、障がいを持つ人も過ごしやすい社会を目指し、人型ロボット「Pepper」を用いたプログラムを開発。遊びながら手話やユニバーサルマークを学べるプログラムを構築し、全国の小学生が集うプログラミングコンテスト「Tech Kids Grand Prix 2022」で、副賞を受賞している。その際に開発した、音声合成機能を用いた質疑応答用アプリでは、想定外の質問対応などで物足りなさを感じていたが、2022年後半から登場したChatGPTなどの生成AIに触れ、会話アプリの開発を着想。未踏ジュニアとして支援を受けながらプログラミングを進め、「BeFree」の開発に至った。

なぜできるのか？

生成AIによる、場にふさわしい対話テキストの生成

マイクで拾った相手の声を文字化し、OpenAIの大規模言語モデル「GPT-4」を用いて、タイムリーな会話を実現している。相手の発話内容から、GPT-4が8つの回答キーワードを生成。キーワードを1つ選ぶと、AIがさらに3つのセンテンスを表示する。ユーザーはその中から自分の気持ちに合う文章を選択し、回答を音声合成の声で伝えて、コミュニケーションを図る。授業や美容室、飲食店など複数場面での会話を想定し、シーンを選んで使う仕様にしており、状況に応じた回答を可能にしている。

自然な会話を目指した音声合成・音声認識機能の活用

自然で聞き取りやすい音声合成の声にこだわり、AmazonPollyのTakumi（男性）とKazuha（女性）の声を採用。数百種類の音声を聞き比べて選定した。またプロトタイプで実施したテストで、会話相手から声の録音状況がわかりにくいとの指摘を受け、アプリ内の録音ボタンの大きさや表示を改良。また音を拾う精度を高めるため、外付けマイクでの対応も可能にした。距離が離れると音が拾いづらくなる、タブレット端末でのマイク環境も改善を進めている。

小学校2年生から培ったプログラミング力と探求心

小学校2年生の時、友人と開発したお小遣いアプリでは、「第３回みやざきジュニアプログラミングアワード」低学年の部で大賞を受賞。その後は、手話翻訳AIアプリや、かけざん九九学習アプリなどの開発を経て、2022年の「Tech Kids Grand Prix 2022」副賞受賞に至った。「BeFree」の開発では、質問を重ねた際に会話履歴が保持できず苦労したが、1カ月半を費やしてコードを作りこみ、その他の課題も乗り越えて開発を実現させた。