generated at
VITS
GANがある
>VITSで用いられているflowは、学習時はzと話者idの情報を入力にとり、zから話者の情報をできるだけ取り除き、発音に関する情報zpを抽出する役割を果たします。

>「Conditional Variational Autoencoder」の名前の通り、VITSは確率的に埋め込みを行うVAEのような性質を持っており、
>スペクトログラムを潜在変数へと落とすVAEと、
>テキスト-潜在変数間の変換を確率的な埋め込みを経由して行うEncoder(Transformer)Decoder(flow)の二段構造になっています。