は、学習時はzと話者idの情報を入力にとり、zから話者の情報をできるだけ取り除き、発音に関する情報zpを抽出する役割を果たします。

「Conditional Variational Autoencoder」の名前の通り、VITSは確率的に埋め込みを行うVAEのような性質を持っており、

スペクトログラムを潜在変数へと落とす

テキスト-潜在変数間の変換を確率的な埋め込みを経由して行うEncoder(Transformer)Decoder(flow)の二段構造になっています。