generated at
Deep Shrink Hires.fix
https://gist.github.com/kohya-ss/3f774da220df102548093a7abc8538edkohya-sskohya-ss/forward_of_sdxl_original_unet.py
Kohyaさん考案の高解像度画像を破綻なく生成する手法
>
>アイデアは極めて単純で、「構図を決めるのはノイズに近いtimesteps」「構図を決めるのはU-Netの深い部分」らしいことが分かっていますので、その部分のlatentsを縮小してあげるだけです。
>"Deep in U-Net, shrinking noisy latents for Hires.fix"の略ということで。

>謎highresfixですが、depthを大きくするとU-Netの深い層で、浅くすると浅い層でlatentを縮小します。timestepsは適用範囲です。この例では1000~900で3層目で縮小、900~700で4層目で縮小します。
>
>適用層を深くすると全体の構図は安定しますが、個別の物体がゆがむようです。浅くすると細部が破綻します。depth_1<=depth_2がよさそうです。
>timestepsは大きくすると適用範囲が狭まるので構図が乱れて、小さくすると適用範囲が広がりディテールに影響します。

実装

関連?