/work4ai/Dreambooth - Scrapbox Reader

generated at 2/17/2025, 7:41:41 PM
DreamBooth
Stable DIffusionで使われているような学習モデルは様々なものを参照しているため、汎用的な単語が与えられると何を描けばよいかわからない
例えば「はやぶさ」
鳥 なのか バイク なのか 探査機 なのか アニメキャラ なのか
そこでいくつかの画像を与えることで言葉の定義を行う
はやぶさ(鳥)　はやぶさ(探査機)
ここまでの技術はTextual Inversion
textual inversionが単語だけなのに対し、モデル全体を最適化するのがDreamBooth
この解釈だと、学習データにジブリっぽい絵が一つもなかったら、どれだけサンプル与えてジブリっぽさを定義しても意味ないな

https://dskjal.com/others/sd-fine-tune.html
Hypernetwork
> 画風の調整に向いてる。学習時間が短く準備の手間も少ない。ファインチューニングは、まず Hypernetwork から挑戦してみるのがいい。
Textual Inversion
>デフォルトの状態で呼び出せる人や物を語に覚えさせたり、トークンを節約したりするのに使う。描く能力はあるが呼び出し方がわからない人や物を呼び出せることがある。Hypernetwork に比べて学習に時間がかかり、背景を塗りつぶしたり、タグ修正したりする手間が追加で発生する。
Dreambooth
>デフォルトの状態で呼び出せない人や物を呼び出せる。


DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
DreamBooth:Stable Diffusionに自分の好きなキャラクターを描いてもらう事は可能

フォーク?
EveryDream-trainer 🌐

やっぱDreamBoothが本命中の本命な気がする
DreamBoothが高コストなので「もっと簡単な手法はこちら！」的な感じでAesthetic GradientなどがWebUIに搭載されたりしてるけども…
Hypernetworkは、DreamBoothより低コストに画風特化ができるかもしれないんだけど、これは論文にもなっておらず詳しい情報も非開示で「NovelAI社がそれを使ってNovelAIDiffusionを使ったらしい」「ソースコードが流出した！」な状態なので情報が錯綜している…
これもアテンションをいじる方法なので、元々Stable Diffusionが描けるものしか描けないと思う
Danbooruの大量のタグで学習したのでアニメ絵に関してのコントロールが効きやすくなっただけ

from /villagepump/2022/11/06
DreamBoothが手軽に使えるようになるらしい
https://twitter.com/_akhaliq/status/1588376931615256576
from /villagepump/2022/09/30
DreamBoothで遊んでみた
未踏のロゴをDreamBoothで学習
こういうロゴ的なものを出すのはDreamBoothならではだし、企業ユースを考えるとニーズの高いところだと思う
学習済みモデルの配布がかなり簡単
from /villagepump/2022/10/17
計算コストが高価なので現時点では一般向けにサービスとして提供されてないけど、将来的にDreamBooth的機能が安価に使えるようになったらもう一回絵師が悲鳴を上げる(既に起こった未来)