generated at
RVC
> @MitoTsukino: 変声機で【わたくしが楓ちゃんの声】になってしゃべり、【楓ちゃんがわたくしの声】になって喋っている動画です。
>
>

creator 花儿不哭
【RVC】全新Al变声器一键训练包发布!10分钟训练,创作门槛大幅降低!
【RVC】新しいAl変声器のワンクリックトレーニングパッケージが発売されました!10分のトレーニングで、創作の敷居が大幅に下がります!

>RVC requires other pre-models to infer and train.
>You need to download them from our Huggingface space.

>算法相关经验和成果是我和Rcell经过半年时间做了上百组实验得出的当前的最优解,
アルゴリズムに関する経験と成果は、私とRcellが半年間にわたって数百の実験を行い、現在の最適解を導き出したものです。


原理解説
VITSは、話者に依存しない発話表現の入力を前提としたtext to speechのしくみ
発話者の発音から、話者に依存しない発話のベクトルをとってきてVITSに渡せば声質変換できる
>faissによるベクトル類似検索を話者に依存しない発話表現ベクトルを得るために利用...
>事前に作成されたHubertによるembeddingのベクトルデータベース
> 推論時、hubertを用いて音声からEmbeddingを作成
>faissを用いて類似したベクトルを取得し、VITSのTextEncoderの入力として利用します。
> ピッチは別途計算されてEmbeddingとして付加されます。
ここでharvestをつかってるのか基素
> ファインチューン時、新規にデータセットから得られたEmbeddingをデータベースに追加し再クラスタリングを行う...