generated at
Inpainting

latent spaceは次元を落としていて元の情報を全て持っていないので完全に再現はできない
input imageをVAE dncodeで次元を落としたもの(A)に対して、ノイズを混ぜる(B) - step 1
maskも同様に次元を落として作る(?)
Bをデノイズしたものとmaskのテンソル積をとる C
step1のノイズを変えながら何度も作って Cと直和(?)をとる
最終的にVAE decodeする