orangeitems’s diary

クラウドで働くインフラエンジニアの日々の感想です(ほぼ毎日更新)。



音声合成で人間をごまかせる日は来るか

f:id:orangeitems:20190825091613j:plain

 

音声合成の現在地点はどこか

ディープラーニングをかじっていると、映像分野についてはかなりの実装ができています。顔認証はもう実用段階ですし、顔情報から新しく映像を作り出すことすらできます。VTuberの世界ではアニメーションが動くのですが将来的には架空の人物が動き出す方向に行くでしょう。技術の進化のベクトルは誰にも変えられません。

一方で、声の世界は明らかに映像よりは遅れています。音声合成の世界に革命を起こしたのは初音ミクの登場ですが、これは2007年です。実は現在のディープラーニングブームよりも前。歌はともかくしゃべらせるとたどたどしいし、声の種類も限界がある。VTuberも結局は声は人間がつけているし、映像と比べるとあまり進化はしていないのか、と思っていました。

が、日経に気になる記事を発見(日経は有料記事だったので、原文の日経xTECHの方を転載、こちらは無料で読めます)。

 

tech.nikkeibp.co.jp

テキスト情報から音声を人工的に生成する音声合成(テキスト音声合成、Text-to-Speech)技術が、幅広い産業に変化をもたらそうとしている。技術の進化に伴い用途が拡大しているほか、音声そのものや合成器(合成エンジン)を流通させる新しいビジネスモデルが登場したり、音声に関する権利の確立に向けた取り組みが始まったりしているのだ。

 

音声合成技術の現在地点を探ります。

 

実装例

今、音声合成を使いたいならと言う目線で事例を集めます。

 

ディープラーニングで自分の声を声優の声にする事例

blog.hiroshiba.jp

(背景)自分の声を結月ゆかりにしたい。前回はあまりクオリティが良くなかったので、手法を変えて質を上げたい。

(手法)声質変換を、低音質変換と高音質化の二段階に分けてそれぞれ学習させた。画像分野で有名なモデルを使った。

(結果)性能が飛躍的に向上し、かなり聞き取れるものになった。

(考察)精度はまだ改善の余地があり、多対多声質変換にすることで精度が向上すると考えられる。今回の結果を論文化したい。

 

qiita.com

『Yukarinライブラリ』yukarin, become-yukarin リポジトリで、自分の音声をターゲット音声に変換する手順を紹介する。

yukarin は become-yukarin の改良版リポジトリであるが、2019/06/24 現在、become-yukarin での学習データを必要が必要になる。

 

HOYAのデモサイト

voicetext.jp

音声合成の声優事務所は、喜怒哀楽の感情表現が可能になったVoiceTextのAI声優が所属する声優事務所です!お客様の望む声で感情表現豊かにお仕事します!

 

韓国のスタートアップMoneyBrain

japan.cnet.com

MoneyBrainは会話型AI技術を研究・開発する、高い評価を受けているスタートアップである。同社は2017年に金融業界向けの最初のAIチャットボットを確立し、2019年5月にはディープラーニングに基づく、人間の声のように自然な音声合成技術を公開した。同社の目標は、近い将来に可能な限り人間に近い会話が行えるAI技術を開発することである。

 

アメリカWellSaid

jp.techcrunch.com

「現在は、一人分のデータを処理するのに、およそ20時間かかっています。しかし、将来は、生身の人間と変わらない声の質を保ちながら、1時間から2時間で処理できるようになります」とPetrochuk氏は言う。

 

NTT

www.itmedia.co.jp

 NTTだけではなく、AppleやMicrosoftといった巨大ITベンダーも機械学習による音声合成に取り組んでおり、人工知能やロボットの普及によって、その需要は高まり続けている。地方ラジオ局でのニュース読み上げにも導入された例からは、労働力減少への対策になる可能性も感じられる。現在急速に音質が向上している音声合成だが、まだまだ進化の余地はあると鳥居さんは言う。

 「ある程度クリアな30分以上の音声をベースに、人間がチューニングを行わないと、質の良い声を再現できないのが、今の技術の限界です。将来的には、少し話した音声をベースに、自動的に質の良い似た声を作れるようになるでしょう。他にも、翻訳技術と組み合わせて、日本語を話した“その人”の声で、自動的に外国語が話せるようなことが実現する日も、案外遠くはないかもしれません」(鳥居さん)

 

AIアナウンサー

www.ai-announcer.com

AIアナウンサー「荒木ゆい」は、約10万件の実際にアナウンサーが読んでいるニュース音声を当社が開発した人工知能エンジン「Spectee AI」で機械学習し、 様々なニュースのシーンにおけるより人に近い自然な発音、アクセントやイントネーションを習得し、自動で原稿を読み上げるバーチャル・アナウンサーです。 これまでにテレビやラジオなど多数出演し活躍の場を広げています。

 

まとめ

情報を総合すると、ディープラーニングを使って音声合成を行うこと自体は実装できているけれども、インプットからアウトプットまでの時間がかかりすぎることが難題。例えばVTuberの音声をリアルタイムで別人に変えるようなことはまだできない。できていると標榜しているものもまだ、機械による音声だと言う印象は免れない。

ただ、今後の技術進化によってその時間はどんどん縮まる。それを目指している企業は世界中にあり、日々進化している。

と言ったところでしょうか。

映像系の進化を今年だけ見てもかなりブーストしたので、音声系もどこかで急激に進化するのでしょう。気になるのはオープンソース系の動きが弱いこと。・・なんて言っているとまたGAFAMあたりが画期的なOSSを出して話題になる、なんてことがありそうです。楽しみにしています。