水を得たさかな

人生たのしく生きよう。

MENU

【VC Client】RVCで誰でも理想のボイスに

VC Clientで誰でも理想のボイスに

VC Clientとは

VC Clientは、従来のボイスチェンジャーと比べて非常に高い精度を持つAIボイスチェンジャーで、少し前から話題になっている。

RVC(Retrieval-based-Voice-Conversion)という事前に音声を学習させたモデルと、このVC Clientを使って、自分の声をほぼリアルタイムで学習した声に変換することが可能。

RVCモデル

VC Clientを利用するにはRVCのモデルが必要になるが、BOOTHなどで無料で配布されているものがいくつかある。

また、自分でモデルを作成することも可能。
RVCはオープンソースで公開されていて、それなりのPCと知識があれば、誰でも学習済みモデルを作ることができてしまう。

今のところ音声学習は無法地帯と化しているので、自分で学習済みモデルを作成する場合は、問題のない音声データを利用し、問題のない範囲で使用することが求められることに注意。

VC Clientのインストールと設定

まずVC Clientの入手はこちらのgithubから

とりあえず説明を読んで、下にスクロールしていって、hugging faceから最新のものを入手。

このあたりのダウンロード方法については、Youtubeに説明動画がいくつもあったので、わからなければそれを見るとよい。

ダウンロードして解凍してインストールが完了すると、以下のような画面。

VC Client 各種設定値

基本的な使い方は画面上部に並んでいるモデルを選択して「Start」ボタンを押すだけだが、まずは各種設定を行う。

詳しく知りたい場合はヘルプを読んだ方がはやい。
voice-changer/tutorials/tutorial_rvc_ja_latest.md at master · w-okada/voice-changer · GitHub

TUNE

とりあえずTUNEを設定する。

一般男性の地声を女声に変換する場合は大体10~14くらいで試すとよい。

INDEX

数値が高いほどRVCモデルの声に近づくということみたい。
とりあえずみんな1にしてるから1にしてる。

F0 Extractor

僕もわからないのでAIに簡単にまとめてもらったよ。

  • dio
    リアルタイムでボイスチェンジャーを使いたいときや、音声の品質があまり気にならないときにオススメです。dioは、高速で処理できるので、遅延が少なく、すぐに声を変えることができます。しかし、dioは、音が小さいところやうるさいところで間違えやすいので、変えた後の声が不自然に聞こえることがあります。
  • harvest
    音声の品質を重視するときや、静かな環境でボイスチェンジャーを使いたいときにオススメです。harvestは、きれいにピッチを検出できるので、変えた後の声が自然に聞こえます。しかし、harvestは、処理に時間がかかるので、遅延が多くなります。
  • crepe
    色々な音声に対応できるときや、正確さとロバストさを求めるときにオススメです。crepeは、コンピューターが学んだ知識を使ってピッチを推定するので、音声の種類や環境に関係なく正しく検出できます。crepeは、dioよりも品質が高く、harvestよりも速度が速いです。
  • rmvpe
    ポリフォニック音楽のボーカルの声を変えたいときや、高い精度と低い遅延を求めるときにオススメです。rmvpeは、コンピューターが学んだ知識を使ってポリフォニック音楽から歌手の声のピッチを推定するので、他の音楽の影響を受けません。rmvpeは、crepeよりも精度が高く、遅延が少ないです。

これだとrmvpeが一番良いってことにならないか?
まぁ、変換した自分の声や遅延をデバイスで聴いてみて決めたらいいと思う。

自分が試した感じは微妙な違いだけどcrepeが良いかなって思う。

S. Thresh

この閾値より小さい音は変換しないよ。

CHUNK、EXTRA

どっちも値がデカイほど変換の質は良くなるけど、その分だけ遅延が増えるよ。

これを使って他人と会話したり実況したりすること考えると、スペックによるだろうけど、自分の場合はCHUNK:256くらいまでかなって感じだったよ。

モデルの追加

入手したり自己学習したモデルの追加は右上にある「編集」ボタンを押して、空いている空きスロットにアップロードすればよい。

その他については、まぁ触ればわかると思うよ!

仮想オーディオデバイスの準備

例えば変換した声でDiscordで通話したいとか。

このような場合、Discord限らず、変換した声を何か他のものに渡すための仮想オーディオデバイスが必要になる。

オススメの仮想オーディオデバイスは「VB-CABLE」
以下から無料でダウンロードできる。

とりあえずインストールしてもらったら、CABLE InputとCABLE outputという仮想オーディオデバイスが利用可能になる。

ここが若干ややこしいのだが、「VC ClientのoutputにCABLE Input」、変換した音声を入力したいもの(今回はDiscord)「DiscordのinputにCABLE output」を設定する。

こういうことや。

ちなみに自分がDiscordで試した感じ、音声処理設定の「エコー除去」をOFFにした方がよい。
ユーザー設定>音声・ビデオ>音声処理設定

感想とかコツ

それなりのPCは要る

まずゲーム実況とかする場合、特にグラボを酷使するようなゲームだとつよつよPCでないと変換が追いつかなくなる可能性がある。自分はRTX3060のVRAM12GBでゲーム側の設定を落とすなどしていけるようになった。

自分で学習させたりすることも考えると、やはりVRAM12GB以上はほしい。
RTX3060はAI界隈では神とされている。

ボイチェン適正

ボイチェン適性が無いとダメという話があるように、かつてのボイチェンでは元の声もそれなりに重要であったが、RVCではそれが改善された!
完全に別人になっちゃった。話題のAIボイチェン「RVC」を体験してみた - やじうまの杜 - 窓の杜

というようなことがこの記事に書いてあるのだが、そうだろうか?

実際に使ってみたり、使用している人の動画を観てみたりすると、RVCでも元の声質がモデルに合っているかどうかが重要だし、特に滑舌が重要だとわかる。
AIでも滑舌はなんとかできなくて泣ける。滑舌を鍛えよう。

声の高さも、元々が高い方がTUNEの値を低くできて自然な感じがする。

また、女の子っぽい喋り方というものがある。
一番は男は抑揚がなく単調に喋るので、抑揚に波をつけて喋ると女の子っぽい。
後は口先だけで喋るとか、語尾の感じとか、っていうのがかつてボイチェンを使わない女声を練習したことがある自分が知っていることだ。

でも、ダウナー系の女の子のモデルだと抑揚が無いのが逆にマッチしたりするし、適性っていうのはそういうこと。

Copyright ©Sakana3g All rights reserved.

プライバシーポリシー