generated at
Stable Diffusion
>latent text-to-image diffusion model
LAION-5B databaseのsubsetであるLAION-Aestheticsで学習
4000台の NVIDIA A100 Ezra-1 AIで訓練
Ezra-1が調べてもわからなかった基素
Stability AIが開発
>Stability AI is building open AI tools that will let us reach our potential.
どうもEmadさんがお金を集めているようだ
モデル自体はCompVisRunwayが開発
>The model itself builds upon the work of the team at CompVis and Runway in their widely used latent diffusion model combined with insights from the conditional diffusion models by our lead generative AI developer Katherine Crowson, DALL·E 2 by Open AI, Imagen by Google Brain and many others.
モデルを無償公開している
さまざまな派生モデルが生まれている https://rentry.org/sdmodels

10GB未満のVRAMで512x512の画像を生成する
画像生成を民主化する
ベータテスターは10000人、一日170万枚作る



一般人向けのやや踏み込んだ解説
仕組みの解説
>@birdMan710Nika: stable diffusionを理解するために読んどくと幸せになれるリストです
>今から勉強する学生さんは大変ですね
>抜け漏れtypoあったら教えてください
>
CNNとかは前提
Diffusion Models Beat GANs on Image Synthesisで生成モデルより拡散モデルの方がええという提案がされる
classifier guidanceを使っている
Classifier-Free Diffusion Guidanceでclassifierなくてもあるのと同等のsample quality/diversityが実現できると提案される
>@birdMan710Nika: 俺の感想ですが、特にclassifier-free diffusion guidanceの式は、stable diffusionが「空のプロンプト」を取っている理由やscaleを理解するために役に立ちました
これにAttention mechanismCLIPの流れがあり
GLIDE(2021)Diffusion Model)を軽くして普通のゲーミングPCでも動くようにしたLatent diffusion model

基礎編
>U-Net (Ronneberger et al., 2015)
> Vision Transformer; ViT; Dosovitskiy et al., 2020
> CLIP (Radford et al., 2021)
拡散モデルの基礎
> NCSN (noise conditional score networks; Song and Ermon, 2019)
birdMan氏の図にはない
>拡散モデルに取り組む前に、概念的に知っておくと役に立つのが、「スコアベースの生成手法 (Song and Ermon, 2019)」です
生成モデルの本質的な問題
>画像などの個々のデータは、多次元空間上の点で表されます。高画質な画像を生成するためには、この「点が多くあつまっていそうな領域」から新たな点を生成すると上手く行くと考えられます。
「sparseなところに情報はなさそう」という漠然な感覚で読み飛ばしてしまうが、実際には何を言っているのか理解できていない基素
/villagepump/2022/10/24で教えてもらったところによると
>512×512のRGB画像はすべて512×512×3次元の空間の一点であるとみなせる
>しかし、この空間からランダムな1点をとっても「真っ黒」とか「単なるノイズに見える」などの「人間にとって意味のない画像」がほとんど
>逆に言えば「人間にとって意味のある絵」はこの空間の中のある狭い領域に密集している
>別の表現: 一様分布ではないなんらかの分布になっている
>この「狭い領域」を人間がルールベースで指定することは困難だが、機械学習を使えば具体例としてデータを与えて「その周辺」を表現することができる
>別の表現: 学習データから分布を獲得することができる
>その領域から選ぶ(分布からサンプリングする)ことができれば、新しい画像の生成ができる
現実のデータのあつまり (分布) をどのようにデータから推定し、そこから新たな点をサンプルすればいいのか?
点の多くが集まっている方向がスコア
>後で分かりますが、この「どちらに進んだらリアルな画像に近づくか」という方向は、ニューラルネットワークで推定することができ、ノイズを除去していくことでデータを生成する拡散モデルと、このスコアマッチングによる生成は、数式の係数などの細かい違いを除いて、基本的に等価であることが知られています。
著者の一人Stefano Ermonの解説
>スコアベースの手法では、ノイズのような適当なデータから始め、徐々に変形させていくことによりデータを生成します。
> DDPM (denoising diffusion probabilistic models; Ho et al., 2020)
拡散モデルの発展
> DDIM (denoising diffusion implicit models; Song et al., 2020)
> Improved DDPM (Nichol and Dhariwal, 2021)
> ADM (ablated diffusion model; Dhariwal and Nichol, 2021)
ここまでは条件なし/クラス条件での画像生成
自由なテキストによる画像生成がしたい!→GLIDE(2021) (Nichol et al., 2021)
Stable Diffusion
LDM (Latent diffusion model, Rombach et al., 2021)



公式discordがある

wave 2のbetaを募集している
joinした

近く2D版も出すらしい
>@EMostaque: 近日安定拡散 アニメ版!🦾

観測範囲で日本でバズったのはこの記事
Midjourneyより高性能らしい
Midjourneyはその後Stable diffusionを食べたらしい(要出典)のでわからない。AIは日進月歩基素

2022年8月22日オープンに公開された
Creative ML OpenRAIL-M license
商用利用可能
倫理・法的な利用に側面を当てたライセンスらしい
model
>The recommended model weights are v1.4 470k, a few extra training steps from the v1.3 440k model made available to researchers. The final memory usage on release of the model should be 6.9 Gb of VRAM.
GTX1070でもギリいける
> In the coming period we will release optimized versions of this model along with other variants and architectures with improved performance and quality. We will also release optimisations to allow this to work on AMD, Macbook M1/M2 and other chipsets. Currently NVIDIA chips are recommended.
ユーザーレビュー
Colabでの実行


ものだけ指定する
これは通常、良くない。カオスになる。
スタイルを指定する
アーティストを指定する
made by Pablo Picasso
スタイルをより具体的にして一貫性のあるものにする
仕上げ
>For instance, if you want to make your image more artistic, add “trending on artstation”. if you want to add more realistic lighting add “Unreal Engine.”

苦手な表現
「リンゴ型の戦車」はMidjourneyではできるがDream Studioは全然できない


>StableDiffusionの学習にはかなり安い計算機を使っても2億円もかかったという
開発者は600kと言っている
>@EMostaque: @KennethCassel We actually used 256 A100s for this per the model card, 150k hours in total so at market price $600k

実践

NSFW差し替えコード

機械学習されたコードかどうか見分けることができる


>@imos: stable diffusionのモデルって1GBくらいなのだけど、画像丸暗記しようと思ったら数千枚分くらいしか覚えられないのに、
1024^3/(24*512*512/8)〜1365枚
>あれだけ豊かな生成ができているの感動がある。1GBなのはハード的制約が強く、正直かつかつ(100MBならたぶん無理)なはずで、計算機の進歩で起きる未来の可能性に期待がかかる。


hardmaru(David Ha)がjoin
>@hardmaru: Personal update: I joined @StabilityAI as head of strategy!
>I can see the creative energy unleashed when people collectively gain control of new transformative technologies like large generative models. I want to create a future where open-source 'foundation' models is the norm.
>