Rimo Voice：新しい働き方を推進する文字起こしサービス

概要

Rimo Voiceは、Withコロナ時代の働き方改革を見据えた、”日本語特化” 文字起こしサービス。既存の音声認識技術と、独自に開発された自然言語処理技術を組み合わせることで、音声データのテキストデータへの変換を行う。従来の文字起こしサービスと比べて、ユーザーの負担を減らし、利用機会を増やすことに重点を置いている。将来的には、会議中の発言や業務中の1on1の会話といった、あらゆる音声が効率よくテキスト化され、組織内でオープンに共有されることで、情報の透明化やリモートワークを含む多様な働き方が推進されると期待される。

なぜできるのか？

文字起こし作業を効率化する秘訣

1時間の保存音声をテキスト化するには通常2～3時間程度かかるが、Rimo Voiceなら最短5分でテキスト化できる。これを可能にするのは、Rimo Voiceの持つ高い精度・可読性・検索機能である。

高い精度

滑舌の良いユーザーが雑音の少ない場所で話すような場合、精度は97％を誇る。複数人の声が被さったり固有名詞が含まれたりしても、80%ほどの精度を保つ。

自動改行による可読性

句読点に対応した音声認識や話の切れ目での自動改行（3〜5行での表示）によって可読性を高めている。

テキストと音声をシンクさせた検索機能

テキスト化後、音声データとテキストデータはウェブ上にアップロードされるが、この際、音声認識が曖昧な箇所については文字色が薄く表示されている。ユーザーは文字色の薄い部分を検索・選択し、テキストデータに紐づいた該当音声を再生（スライダー機能）、誤字・脱字の修正を手早く行うことができる。

相性のいい産業分野

教育・人材: 複数の会議がバッティングしてしまっても即時議事録でキャッチアップ
プロジェクタを連携し、グループワーク等で出た意見をその場ですぐにテキスト化、ホワイトボードに投影
メディア・コミュニケーション: 記者会見等の発言が実施後すばやく公開されるネットニュース
アート・エンターテインメント: 演劇や漫才など、舞台上の発話を即時プロジェクションする演出