RVC + VC Client
2023/4/9
> まだ話題になってないけど、画像生成AIで半年前から起きたような混乱が音声でも同様におきる気しかしない
>・この記事の最終目標は「リアルタイム変換でずんだもんボイスになってDiscordで通話する」です。
流れ
RVCで学習モデル(pthファイル)を作成
> 読唇の研究、音声合成の研究、音声認識の研究、リップシンクの研究、その他の研究にお役立てください。
> 観賞用としてダウンロードするのはNGとなります。
> 研究の範囲内で機械学習などでできあがった音声などを公開する分には問題ありません。
downwoad 「ROHAN4600_zundamon_voice.zip」(6.6G)
download 「
ITAコーパスマルチモーダルデータベース→ずんだもんボイスデータ」939MB
click go-web.bat
> step1:填写实验配置。实验数据放在logs下,每个实验一个文件夹,需手工输入实验名路径,内含实验配置,日志,训练得到的模型文件。
ステップ1:実験の設定を入力してください。実験データはlogsフォルダに格納され、各実験は別々のフォルダに保存されます。実験名のパスを手動で入力する必要があります。フォルダには、実験の設定、ログ、トレーニングで得られたモデルファイルが含まれています。
目標サンプリングレート
モデルに音高指導が含まれているか(歌唱には必要ですが、音声には必要ありません)
これを入れると強制的にpitchが補正される?
>step2a:自动遍历训练文件夹下所有可解码成音频的文件并进行切片归一化,在实验目录下生成2个wav文件夹;暂时只支持单人训练。
トレーニングフォルダー内のすべての音声に変換可能なファイルを自動的にトラバースして、スライスを正規化し、実験ディレクトリに2つのwavフォルダを生成します。現在は、単一のトレーニングのみをサポートしています。
話者IDを指定してください。
出力情報
>step2b:使用CPU提取音高(如果模型带音高),使用GPU提取特征(选择卡号)
CPUを使用してピッチを抽出します(モデルにピッチがある場合)。GPUを使用して特徴を抽出します(カード番号を選択します)。
>以-分隔输入使用的卡号,例如 0-1-2 使用卡0和卡1和卡2
入力で使用するカードを「-」で区切ります。例:0-1-2はカード0、カード1、カード2を使用します。
GPU情報
ピッチ抽出に使用するCPUプロセス数
>选择音高提取算法:输入歌声可用pm提速,高质量语音但CPU差可用dio提速,harvest质量更好但慢
ピッチ抽出アルゴリズムを選択します:入力の歌声には、
pmを使用して速度を上げることができます。高品質の音声ですが、CPUが悪い場合は
DIOを使用することができます。
harvestはより良い品質ですが、遅いです。
特徴抽出
トレーニング設定を入力し、モデルとインデックスのトレーニングを開始する
最新のckptファイルのみを保存して、ディスクスペースを節約するかどうか
> 是否缓存所有训练集至显存。10min以下小数据可缓存以加速训练,大数据缓存会炸显存也加不了多少速
トレーニングセット全体をキャッシュし、GPUメモリに保存するかどうか。10分以内の小規模データは、トレーニングを加速するためにキャッシュできますが、大規模データは、メモリを圧迫するだけで、速度向上があまりありません。
事前学習済みのベースモデルGのパスを読み込む
事前学習済みのベースモデルDのパスを読み込む
> 以-分隔输入使用的卡号,例如 0-1-2 使用卡0和卡1和卡2
カード番号を-で区切って入力し、使用するカード番号を指定します。例:0-1-2 はカード0とカード1とカード2を使用します。
batch_size 8数分で終了
> 【今あるもの】 .wavファイルをn秒区切りで分割して学習素材にするやつ
> ・分割したwavファイルを無音のものと、音声ありで選別するスクリプト
VC Clientで学習モデルをつかう
>Windows 環境で Nvidia の GPU をお持ちの方は多くの場合は ONNX(cpu,cuda),PyTorch(cpu)版で動きます
がびがび
sampling rate?
Advanced Setting > Sending Sample Rate
24000を選択し直したらましになった
疑問
ここの一致は必要?
48kで学習したら声が低くなった
Tuning 0のとき Model 48k - Sending Sample Rate:48k > Model 40k - Sending Sample Rate48kだった
epoch
10と30はかなり違う
30と60でさほど差はない(数分使った程度で認識できず)
動画投稿
縦長と横長作るのめんどくさすぎる
クレジット.txtリアルタイムボイスチェンジャーのRetrieval-based-Voice-Conversion + VC Clientを試しただけです 。
前半はepoch 30、後半はepoch 60でピッチ推定はharvestを使っています
RVC https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI
VC Client https://github.com/w-okada/voice-changer
SSS合同会社 ITAコーパスマルチモーダルデータベース ずんだもん https://zunko.jp/multimodal_dev/login.php
坂本アヒル ずんだもん https://seiga.nicovideo.jp/seiga/im10788496
「らん らん ら ら らん らん らん」の末尾が「らん ろーざ」になる。これはこう発話しているわけではなく変換によってなにかがおきてる