10 Feb 2023

Adding Conditional Control to Text-to-Image Diffusion Models
>We present a neural network structure, ControlNet, to control pretrained large diffusion models to support additional input conditions. The ControlNet learns task-specific conditions in an end-to-end way, and the learning is robust even when the training dataset is small (< 50k). Moreover, training a ControlNet is as fast as fine-tuning a diffusion model, and the model can be trained on a personal devices. Alternatively, if powerful computation clusters are available, the model can scale to large amounts (millions to billions) of data. We report that large diffusion models like Stable Diffusion can be augmented with ControlNets to enable conditional inputs like edge maps, segmentation maps, keypoints, etc. This may enrich the methods to control large diffusion models and further facilitate related applications.
ControlNetはタスクに特化した条件をエンドツーエンドで学習し、学習データセットが小さい(< 50k)場合でも学習はロバストである

>Diffusion Model (特に Latent Diffusion)では入力の条件付けを忠実には考慮できていないモデルが多いため、本論文の結果はなかなかにインパクトがあります。個人的には GAN 時代の pix2pix がそのまま Diffusion モデルになってパワーアップした印象があります
>勿論 Taming TransformerPalette など Diffusion based な pix2pix モデルはありましたが今回のモデルは今広く使われている Stable Diffusion ベースとなっていることからも利便性が高いと思われます。(※ ControlNetは Stable Diffusion 以外にも適応可能です。)今後様々なタスクのベースとして使われる可能性がある
>本論文では、Stable Diffusion のような大きな Diffusion モデルを個々のタスクに特化して学習が可能な ControlNet の紹介をします。この手法により Cannyエッジ、Hough line、人間の姿勢情報からの画像生成など、様々なタスクを学習することが可能となります。また、個人レベルのマシン(ex. Nvidia RTX3090Ti)で学習させた場合、大規模計算クラスタで学習したモデルにも引けをとらないモデルが学習できたようです

> @TDS_95514874: ControlnetのNormalモードを使って、3Dモデルをイラスト、アニメ調に変換した後、元の3Dモデルにテクスチャとして貼り付けます
> Normalモードは細部の構造がよく反映されるので、かなり正確にテクスチャリングが出来ます
> 少し調整すればシェイプキーすら流用できそうなレベル
