Stable Diffusion
>latent text-to-image diffusion model
Ezra-1が調べてもわからなかった
>Stability AI is building open AI tools that will let us reach our potential.
どうもEmadさんがお金を集めているようだ
>The model itself builds upon the work of the team at CompVis and Runway in their widely used latent diffusion model combined with insights from the conditional diffusion models by our lead generative AI developer Katherine Crowson, DALL·E 2 by Open AI, Imagen by Google Brain and many others.
モデルを無償公開している
10GB未満のVRAMで512x512の画像を生成する
ベータテスターは10000人、一日170万枚作る
一般人向けのやや踏み込んだ解説
仕組みの解説
>
>@birdMan710Nika: 俺の感想ですが、特にclassifier-free diffusion guidanceの式は、stable diffusionが「空のプロンプト」を取っている理由やscaleを理解するために役に立ちました
基礎編
>U-Net (Ronneberger et al., 2015)
> CLIP (Radford et al., 2021)
拡散モデルの基礎
>拡散モデルに取り組む前に、概念的に知っておくと役に立つのが、「スコアベースの生成手法 (Song and Ermon, 2019)」です
生成モデルの本質的な問題
>画像などの個々のデータは、多次元空間上の点で表されます。高画質な画像を生成するためには、この「点が多くあつまっていそうな領域」から新たな点を生成すると上手く行くと考えられます。
「sparseなところに情報はなさそう」という漠然な感覚で読み飛ばしてしまうが、実際には何を言っているのか理解できていない
>512×512のRGB画像はすべて512×512×3次元の空間の一点であるとみなせる
>しかし、この空間からランダムな1点をとっても「真っ黒」とか「単なるノイズに見える」などの「人間にとって意味のない画像」がほとんど
>逆に言えば「人間にとって意味のある絵」はこの空間の中のある狭い領域に密集している
>別の表現: 一様分布ではないなんらかの分布になっている
>この「狭い領域」を人間がルールベースで指定することは困難だが、機械学習を使えば具体例としてデータを与えて「その周辺」を表現することができる
>別の表現: 学習データから分布を獲得することができる
>その領域から選ぶ(分布からサンプリングする)ことができれば、新しい画像の生成ができる
現実のデータのあつまり (分布) をどのようにデータから推定し、そこから新たな点をサンプルすればいいのか?
点の多くが集まっている方向がスコア
>後で分かりますが、この「どちらに進んだらリアルな画像に近づくか」という方向は、ニューラルネットワークで推定することができ、ノイズを除去していくことでデータを生成する拡散モデルと、このスコアマッチングによる生成は、数式の係数などの細かい違いを除いて、基本的に等価であることが知られています。
>スコアベースの手法では、ノイズのような適当なデータから始め、徐々に変形させていくことによりデータを生成します。
> DDPM (denoising diffusion probabilistic models; Ho et al., 2020)
拡散モデルの発展
> DDIM (denoising diffusion implicit models; Song et al., 2020)
> ADM (ablated diffusion model; Dhariwal and Nichol, 2021)
ここまでは条件なし/クラス条件での画像生成
Stable Diffusion
公式discordがある
wave 2のbetaを募集している
joinした
近く2D版も出すらしい
観測範囲で日本でバズったのはこの記事
Midjourneyはその後Stable diffusionを食べたらしい(要出典)のでわからない。AIは日進月歩
2022年8月22日オープンに公開された
Creative ML OpenRAIL-M license
商用利用可能
倫理・法的な利用に側面を当てたライセンスらしい
model
>The recommended model weights are v1.4 470k, a few extra training steps from the v1.3 440k model made available to researchers. The final memory usage on release of the model should be 6.9 Gb of VRAM.
> In the coming period we will release optimized versions of this model along with other variants and architectures with improved performance and quality. We will also release optimisations to allow this to work on AMD, Macbook M1/M2 and other chipsets. Currently NVIDIA chips are recommended.
ユーザーレビュー
ものだけ指定する
これは通常、良くない。カオスになる。
スタイルを指定する
アーティストを指定する
made by Pablo Picasso
スタイルをより具体的にして一貫性のあるものにする
仕上げ
>For instance, if you want to make your image more artistic, add “trending on artstation”. if you want to add more realistic lighting add “Unreal Engine.”
苦手な表現
「リンゴ型の戦車」はMidjourneyではできるがDream Studioは全然できない
>StableDiffusionの学習にはかなり安い計算機を使っても2億円もかかったという
開発者は600kと言っている
>@EMostaque: @KennethCassel We actually used 256 A100s for this per the model card, 150k hours in total so at market price $600k
実践
NSFW差し替えコード
機械学習されたコードかどうか見分けることができる
>@imos: stable diffusionのモデルって1GBくらいなのだけど、画像丸暗記しようと思ったら数千枚分くらいしか覚えられないのに、
1024^3/(24*512*512/8)〜1365枚
>あれだけ豊かな生成ができているの感動がある。1GBなのはハード的制約が強く、正直かつかつ(100MBならたぶん無理)なはずで、計算機の進歩で起きる未来の可能性に期待がかかる。
>@hardmaru: Personal update: I joined @StabilityAI as head of strategy!
>I can see the creative energy unleashed when people collectively gain control of new transformative technologies like large generative models. I want to create a future where open-source 'foundation' models is the norm.
>