Pickup

2023.07.26

レポート

生成AIがもたらすインターフェースの変貌─【知財図鑑 Podcast generated by AI】から考えるメディアにおけるUI/UXの未来

株式会社 知財図鑑, OpenAI

CHIZAI HUNTER ASSOC.

知財図鑑では、生成AIを活用した新たな取り組みとして、知財図鑑の記事をAIによって対話形式で台本化し、Podcastで配信する取り組みを試験的に運用開始しました。

公開した記事の内容を生成AIを用いて要約し、生成AIで対話形式の台本に自動書き換えを行い、AI音声による読み上げを生成しPodcast化するまでの工程を生成AIを活用して行いました。また、これらの一連の作業は、知財ハンターのためのコミュニティ「知財ハンター協会」の有志の起案で実施されました。この記事では、生成AIによるAI Podcast完成までの制作の裏側をレポートします。

生成AI Podast「知財図鑑Podcast generated by AI」はこちら

スクリーンショット 2023-07-25 午後2.59.38 引用元: https://open.spotify.com/episode/6mRIzZouT24f6SCEIkNRHY

(written by:知財ハンター協会 林 尚芳(hayataka))

はじめに

2023/7/21に「知財図鑑Podcast generated by AI」を公開した。知財図鑑で紹介された知財・技術を、音声でも紹介する番組だ。タイトルからも推測できる通り、この番組は制作方法に特徴がある。ChatGPT等の生成AIを用いて、記事という活字メディアから、Podcastという音声メディアに(半)自動的に変換して制作しているのである。

知財図鑑 generated by AI 引用元: https://open.spotify.com/show/5GRUrP03sxvK3KqnQd3oOE

この生成AIによる「記事 to Podcast」というアイデアや制作プロセスは、技術的に面白いだけでなく、生成AIがもたらす社会変化について、様々な示唆を含んでいる。そこで本記事では、アイデアが生まれた背景や具体的な制作方法を紹介しつつ、最後に、この制作活動を通じて感じた生成AIがもたらす変化を、メディア、UI/UX、アイデア創出、学びの4つ観点から論じたい。

アイデアが生まれた背景

記事 to Podcastというアイデアの起点は、超個人的なニーズにある。単に、私がPodcastが大好きなので、様々なコンテンツをPodcastを通じて摂取したいと思っただけだ。それと同時に生成AIの波が重なり、生成AIツールを使って実際に作ってみようと考えたのである。まさに朝ランニング中に、Podcastを聞きながら思いついたことだ(何の番組かは忘れたが、思考の良い触媒になっていた)。

Podcast化する元記事は、知財図鑑が良いとすぐに頭に浮かんだ。知財図鑑には、様々な知財が分かりやすく紹介されている。これらの記事と読者の出会いを最大化させるには、Podcast化して聴いてもらうのも1つの手だと考えた。

また、知財ハンター協会(https://chizai-hunter.org/)のコミュニティ内では、ChatGPTを使った記事の平易化が紹介されていた。知財図鑑は社会人向けの表現になっているが、例えば小学生でも分かるような表現に変換できると、メディアとして大きなインパクトがある。そこで、記事 to X(音声 / イラスト / 動画 / 漫画 等)といったメディア間の変換や、読み手に合わせた文章の平易化などを含めて、AIによる「メディアトランスフォーメーション」の進展が面白くなると感じていた。

そんな想いを抱きながら、朝ランニング終了後、すぐに生成AIを使った記事 to Podcast制作に取り掛かると、昼下がりには1つのエピソードがほぼできていた。最終的に完成した音声ファイルと、編み出した制作フローも含めて、その夜に知財ハンター協会のDiscordに投稿した。すると、すぐにコミュニティのメンバーから反応があり、実際に知財図鑑のPodcastとして配信してみようという話になった。アイデアを思いついてから、1つデモを制作し、コミュニティに投稿し、実際に配信をやってみようと意思決定されるまで、たったの1日。生成AI時代のものづくりを象徴するスピード感だったと思う。

制作方法

制作フローは大きく2つのフェーズから成る。

フェーズ1:ChatGPTによって、記事のテキスト情報から、Podcastの台本を生成する。
フェーズ2:テキスト読み上げソフトウェア「VOICEVOX」によって、生成された台本を読み上げる音声に変換する。

image7 図表. 知財図鑑Podcast generated by AIの制作フロー

フェーズ1. 記事 to 台本 by ChatGPT

作成する台本は、初心者であるホストが、知財ハンターをゲストに招待し、ある知財について解説してもらう対談形式を想定している。ChatGPTと共に行う台本作りは、大きく3つのステップから成っている。ここでは、それぞれのステップの狙いと、具体的なプロンプト設計や出力結果例を紹介する。

記事の重要なトピックを抽出

重要なトピックをChatGPTに認識させることを狙っている。また、指示出しをしている人間側(筆者)も、台本をチェックする際の参考情報となるため、把握しておくという目的もある。

■プロンプト

#記事は新しい技術に関するものです。

この技術について、概要、何が凄いのか、なぜ生まれたのか、妄想プロジェクトの内容、なぜできるのか、相性のいい産業分野、この技術の開発した組織といった観点から、重要なトピックを洗い出して出力してください。

#記事:"""
(記事のテキストが入る)
“””

■出力結果

ChatGPTによる出力結果は、以下のような内容となった。

image1

対談形式の台本を生成

台本に重要トピックを網羅させることはもちろん、ホストには難しい用語・概念を聞き返すようにしたり、多様なパターンの返答をさせることで、リスナーの聞きやすさ向上を狙っている。例えば、下記の事例では、静電容量という専門用語を、ホストがゲストに自発的に聞き返している。また他の事例では、「まるで魔法のような技術ですね!」と、元記事では書いていない表現を使って、ホストが返答していることもあった。これらは、台本制作の初心者である私にとっては、意外と思いつかない表現である。このように、生成AIの出力結果に驚かされることや学ぶことが多くあった。

■プロンプト

その洗い出した全てのトピックについて、詳しい情報をわかりやすく面白く解説するPodcast番組を作ってください。下記の#条件に沿うように作ってください。

#条件:"""
・タイトルをつけてください。
・一般人であるホストと専門家であるゲストが会話している形式であること。
・難しい用語・概念がある場合は、ホストがゲストに追加質問するようにしてください。
ホストは単一的な返答ではなく、様々なパターンで返答をしてください。
・ホストの名前は「chizu」、ゲストの名前は「***」です。
・ゲストを紹介する際は、「知財ハンターの***さん」と紹介してください。
"""

■出力結果

ChatGPTによる出力結果は、以下のような内容となった。

image5

人手のパッチワークによる台本完成

生成された台本からトピックが漏れている場合は、「このトピックが漏れているので、台本に追記してください」と指示して生成した。また、同じプロンプトでも、実行タイミングによって生成結果が変わる。制作初期では、この出力結果の揺れに戸惑いを感じていたが、途中から逆にこの揺れを活かそうと考えた。つまり、同じプロンプトでも、何度か試してみて、全体の構成や内容が一番良いものを選択する。それを基本としつつ、他の生成結果から良い表現の箇所を集めて切り貼りしたり、一部は手動で修正してみるという、パッチワーク的な作業を経て、台本を完成させている。

フェーズ2. 台本 to 音声 by VOICEVOX

テキスト読み上げソフトウェア「VOICEVOX」を利用して、フェーズ1で作成した台本を音声化している。いくつかフリーの音声生成ツールやAPIを使ったが、音声種類の豊富さ、音声の質の良さ、GUIで操作できる手軽さなどから、VOICEVOXを採用した。台本のテキストをVOICEVOXに読み込ませ、どのキャラクターで喋らせるかを指定するだけで、簡単に音声化することができる。単語の読み方やイントネーション、セリフの間合い、話す速度、抑揚などを細かく調整できるので、Podcastとしての聞きやすさも追求できる。今はGUIベースで操作しているが、APIも提供されているので、そのうち自動化も試していきたい。

image2 図表. VOICEVOXによる音声化

BGM生成 by MusicGen

BGMは既存のものを活用することも考えたが、せっかくなのでPodcast番組の世界観にあったものを作りたかった。そこで、Meta社が公開している音楽生成AIである「MusicGen」を利用した。知財図鑑の世界観を、どうやってプロンプトで伝えると良いか苦労した。その結果、「知財ハンターが世界を救うというSF映画で、美しい未来のシーンで使われるようなBGM」という風に伝えるのがベストであった。このプロンプトで生成された曲は、雄大さとアップテンポ感のバランスがちょうど良いと感じた。

■プロンプト例
screen music for *** scene of SF movie that intellectual property hunters save the world. They chase cutting edge technologies, new services, research results and gadgets. Then, they fantasize about how technology will change the world. Finally, they solve various world issues and make the bright future.

※ ***には、beautiful future, cool future, happy, battle, dangerousといった言葉を入れて、様々なシーンでの音楽を作成して比較した。

image6 図表. MusicGen

(出典) https://github.com/facebookresearch/audiocraft から Open in Colabで開く

音声・BGM統合 by GarageBand

作成した音声ファイルとBGMファイルは、Apple社の音楽制作ソフトウェア「GarageBand」を使って統合している。私はMacユーザーであるため、初期インストールされているこのアプリを利用したが、各々のPC環境やスキルに合わせて、音楽制作アプリを利用すると良い。

タイトル・概要文生成 by ChatGPT

ChatGPTには、台本を生成させるだけでなく、エピソードのタイトルや概要文も生成させている。これも何度か生成を繰り返して、良いものを選択したり、良い箇所を組み合わせて、最終的なタイトルと概要文を作成している。印象に残っている事例としては、『未来を飲み込む!新技術「Ooho!」で環境負荷を軽減する』というタイトルがある。Ooho!とは、食べられる膜であり、ペットボトルの代替になる技術なのだが、「食べられること」と「未来」を掛けわせて、「未来を飲み込む!」というキャッチコピーを、ChatGPTが作ったことには驚かされた。私では、なかなか出てこない表現だったと思う。

生成AIがもたらす変化

この制作活動を通じて、生成AIの技術的な面白さを堪能すると同時に、この生成AIがもたらす社会への影響も考えるようになり、知財図鑑・編集長の荒井さんとも議論するようになった。特にここでは、「メディア」「UI/UX」「アイデア創出」「学び」の4つの観点から論じたい。

メディアトランスフォーメーション時代のメディアの役割

今回は、テキスト記事を音声に変換させたが、変換させる先はどのような形でも良い。例えば、漫画が好きな人であれば「記事 to 四コマ漫画 / イラスト」、TikTokが好きな人であれば「記事 to ショート動画」も考えられる。また変換元は記事でなくても良く、生成AIの能力が向上することで、様々なメディア間での変換が可能になるかもしれない。つまり、誰もが、自分が摂取しやすい形にメディアを変換しやすくなる(メディアトランスフォーメーション)。

そうなると、メディアの役割自体も変わっていくだろう。将来はブログメディア / 動画メディア / SNS 等と分類されることがなくなり、大元の情報のキュレーションがなされていれば、読者の気分やシチュエーションによって、様々なメディア形態にアウトプットを変形できる。そのためのソースがメディアの役割である、ということになる。メディアがこれまでの中央集権的ポジションから離れて、主体を読者側に持っていく行為でもあり、ダイナミックな転換がもたらされる可能性があるのではないか。

”User” Interfaceから”Your” Interfaceへ

生成AIによってメディアトランスフォメーションの自動化が可能になれば、ボタンを1つクリックするだけで、記事をPodcast化してくれたり、自分のレベルに合わせて平易化できるようになる。今回は、新しいメディア開発として取り組んできたが、同様の思想は、サービス・アプリのUI/UXまで広げて考えることができる。

UI/UX設計では、ユーザーに親和性高いアンビエントな形態を実現することが重要とされている。それはまさに、ユーザーの行動履歴や慣れ親しんだ形に落とし込めるかどうかである。しかし、これまでのインターフェースは、一定のユーザー層を想定し、条件分岐による変化はあるものの、サービス・アプリごとに固定化している。一方で、生成AIを活用すると、そのユーザーの行動や環境に対して、親和性の高い形態で、Just in Timeにインタフェースを変化させることができるかもしれない。そうなると、”User” Interfaceではなく、”Your” Interfaceへと変貌を遂げるだろう。

なお、生成AIによるUI/UXへの影響については、『梶谷健人:生成AI時代におけるUXデザイン(https://speakerdeck.com/kajikent/sheng-cheng-aishi-dai-niokeruuxdezain)』が、多面的に考察されていて参考になる。この”User”から”Your”への変化についても、具体的な事例を踏まえて触れられている。

”0.1”の状態で発露するアイデアたちと、それらを育む社会・コミュニティ

世界にはきっと、埋もれたアイデアが沢山あるはず。例えば、あるアイデアを思いついた人に、制作スキルがなくて、世に出ていないものがあるだろう。また、起点が超個人的なニーズで、作っても投資・費用回収できるか分からないため、作られていない、ということも考えられる。

生成AIによって様々な制作のハードルが下がることで、これまで埋もれてきたアイデアたちが、視覚化されたり、実際に動くものとして表出・流通していくのではないか。そして、その中から、とてもユニークなものや、超個人的なアイデアだと思っていたが実は多くの人に刺さるものが出てくるのではないかと期待している。

妄想と具現

知財図鑑の書籍『妄想と具現(https://bookplus.nikkei.com/atcl/catalog/22/12/16/00570/)』では、新規事業開発において「0から1を生み出すことを狙うだけでなく、その手前の0.1をたくさん出すことも大事」だと述べられている。まさに生成AIを活用することで、誰もがその0.1を生み出すことができるのではないか。そして、その生まれた0.1を見つけて、拡散したり、意見を言ったり、共創したり、社会として育む土壌が醸成されることを期待したい。

知財ハンター協会」というコミュニティは、その土壌の1つであろう。この「記事 to Podcast」というアイデアは、生成AIという技術とこのコミュニティが無ければ、私の中で埋もれていたと思う。そんな弱い文脈から生まれるアイデアたちが、0.1や0.01の状態でもいいから、表現・制作されていく。そんな小さな発露を見つけ、集めて、前進させていくような場がたくさん生まれるのではないか……と、期待を込めて妄想している。

image8 引用元: https://note.com/dem_yeah/n/n84c990e57e0c

図表. 0→1と0→0.1の比較

制作ファースト、学びセカンドという循環

生成AIを活用することで、思いついたアイデアに関する理論理解や制作スキルが不足していても、形にすることができる。アイデアを思いついたら、まずは制作してみる。すると、制作プロセスやAIから生成された結果を通じて、様々な気づきや刺激を貰うことができる。更に周囲からのフィードバックも踏まえて、もっと良くしたい・面白くしたいという欲望も芽生え、自ずとその分野の理論やスキルを学びたくなる。

例えば、ChatGPTとPodcastの台本やタイトル作りをしている時は、 自分からは出てこないだろう表現に触れられて驚いた。それと同時に、物語やキャッチコピーの作り方を学びたいとも思った。また、MusicGenとBGMを作っている時は、私が音楽について詳しくないため、生成結果を踏まえて、AIにどう指示して良いか分からなかった。最近、AI開発でも、Human in the loopという「AIが不得意なところは、人間がフィードバックしてより良いものにしていく」という概念が注目されている。しかし、分野によっては、Humanである私が知識不足すぎて、in the loopできないという問題を感じた。この経験によって、私も音楽について学んでみたいと思うようになった。

このように、「生成AIと共にする制作活動によって、自分の好奇心やスキルが、結果的に拡張されていく」という、制作と学びの好循環が生まれるのではないかと思う。一方で、その分野の初心者が、生成AIの結果を鵜呑みに・流用するだけで、自らの好奇心・学びに繋がっていない場合は、初心者のまま変わらないため、注意が必要だろう。

最後に

私が感銘を受けた本の1つに、『徳井直生:創るためのAI 機械と創造性のはてしない物語(https://bnn.co.jp/products/9784802512008)』がある。その中で述べられている「鏡としてのAI、道具としてのAI」という捉え方がとても示唆深いため、その一節を紹介したい。私もこの制作活動を通じて、似た感覚を持った。

『人の知能の模倣を試みるAIは、私たちの知能を拡張する「道具」として機能する一方で、私たちの複雑で豊かな知能のあり方を映し出す「鏡」としても機能します。AIを単なる道具として扱うのではなく、そこにある種の自律性[予測不可能性や揺らぎ]を認めることが新しい表現につながる。AIは、誤用の可能性を許す道具のような存在であるべきである。(中略)私たちがAIを形づくり、AIが私たちを形づくる。』
(p67より抜粋。[]は筆者の補足。)

そして、本書の最後には、徳井さんが考える理想のAIとの付き合い方を、サーフィンをメタファーにして解説している。

『AIとの付き合い方の理想を、私はサーフィンに見出します。サーフィンというスポーツは、主体性[ターンやパドルアウト]と受動性[波に身を任せる]が入り混じった不思議なスポーツです。(中略)AIが生み出すある種の間違いを取捨選択し、その意外性を積極的に楽しむ。その上で、自分の価値観や評価基準をアップデートしていく。この姿勢は表現や創造性以外の領域にも当てはまることでしょう。』
(p344より抜粋。[]は筆者の補足。)

この記事が、AIとサーフィンを始めようとする誰かの、後押しする風になれたら嬉しい。


Text:林 尚芳(hayataka)/Edit:荒井 亮、福島 由香


生成AI Podast「知財図鑑Podcast generated by AI」はこちら

スクリーンショット 2023-07-25 午後2.59.38 引用元: https://open.spotify.com/episode/6mRIzZouT24f6SCEIkNRHY

広告