/work4ai/🦊latent diffuison modelsとVAE

generated at 2/14/2025, 2:55:57 AM
🦊latent diffuison modelsとVAE
🏡/🦊雑に学ぶComfyUI
前
次/🦊CFG


ここまでの技術はピクセル画像、つまり我々の目に見える画像で行ってきましたが、計算量が多すぎてご家庭のパソコンでは動かせないという問題がありました
そこで、一度低次元に圧縮し、そこでサンプリングを行ってノイズを除去した後、ピクセル画像に戻すことで計算量を削減しようとしたのがlatent diffusion modelsです
この低次元というのが潜在空間(latent space)であり、ピクセル画像を潜在空間に変換したり、逆にピクセル画像に戻したりするのがVAEです


ComfyUIで見てみる
分かりやすさのためにimage2imageのworkflowを見てみましょう
https://comfyanonymous.github.io/ComfyUI_examples/img2img/ComfyUI_examples/img2img
ベースとなる画像がVAEEncodeノードで潜在空間へ変換されます
その状態でKsamplerがサンプリングを行います
最後にVAEDecodeノードでピクセル画像へ戻すことで綺麗な画像が得られます


実践的な話
どのVAEを使えばいいか
RAWをJPEGに変換すると画像が劣化するのと同じように、というかそれ以上にピクセル画像を潜在空間へエンコード/デコードすると画像が劣化します
そして、VAEによってその処理の上手い下手にかなり大きな差があります
有名なものではAnything V3.0をデフォルトのVAEでデコードすると下のように鮮明度が低いボヤっとした画像がでてきます
これに対処するために古今東西様々なVAEが開発されたのですが、以下のVAEを使えば間違いないのでそれ以外忘れてください
Stable Diffusion 1.5ベース
vae-ft-mse-840000-ema-pruned
ダウンロード
https://huggingface.co/stabilityai/sd-vae-ft-mse-original/blob/main/vae-ft-mse-840000-ema-pruned.safetensorsvae-ft-mse-840000-ema-pruned.safetensors
 ComfyUI_windows_portable\ComfyUI\models\vae に置く
SDXLベース
モデル内臓のもの、もしくはSDXL VAE
潜在空間での画像編集