DreamBooth
例えば「はやぶさ」
鳥 なのか バイク なのか 探査機 なのか アニメキャラ なのか
そこでいくつかの画像を与えることで言葉の定義を行う
はやぶさ(鳥) はやぶさ(探査機)
textual inversionが単語だけなのに対し、モデル全体を最適化するのがDreamBooth
この解釈だと、学習データにジブリっぽい絵が一つもなかったら、どれだけサンプル与えてジブリっぽさを定義しても意味ないな

> 画風の調整に向いてる。学習時間が短く準備の手間も少ない。ファインチューニングは、まず Hypernetwork から挑戦してみるのがいい。
>デフォルトの状態で呼び出せる人や物を語に覚えさせたり、トークンを節約したりするのに使う。描く能力はあるが呼び出し方がわからない人や物を呼び出せることがある。Hypernetwork に比べて学習に時間がかかり、背景を塗りつぶしたり、タグ修正したりする手間が追加で発生する。
>デフォルトの状態で呼び出せない人や物を呼び出せる。
フォーク?
やっぱDreamBoothが本命中の本命な気がする
DreamBoothが高コストなので「もっと簡単な手法はこちら!」的な感じでAesthetic GradientなどがWebUIに搭載されたりしてるけども…
Hypernetworkは、DreamBoothより低コストに画風特化ができるかもしれないんだけど、これは論文にもなっておらず詳しい情報も非開示で「NovelAI社がそれを使ってNovelAIDiffusionを使ったらしい」「ソースコードが流出した!」な状態なので情報が錯綜している…
これもアテンションをいじる方法なので、元々Stable Diffusionが描けるものしか描けないと思う
Danbooruの大量のタグで学習したのでアニメ絵に関してのコントロールが効きやすくなっただけ
未踏のロゴをDreamBoothで学習
こういうロゴ的なものを出すのはDreamBoothならではだし、企業ユースを考えるとニーズの高いところだと思う

学習済みモデルの配布がかなり簡単

計算コストが高価なので現時点では一般向けにサービスとして提供されてないけど、将来的に
DreamBooth的機能が安価に使えるようになったらもう一回絵師が悲鳴を上げる(既に起こった未来)