generated at
DreamBooth
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
Submitted on 25 Aug 2022
>Large Text-to-Image models achieved a remarkable leap in the evolution of AI, enabling high-quality and diverse synthesis of images from a given text prompt. However, these models lack the ability to mimic the appearance of subjects in a given reference set and synthesize novel renditions of them in different contexts.
text-to-imageモデルの欠点:与えられた参照集合における被写体の外観を模倣し、異なる文脈における被写体の新しい表現を合成する能力を欠いている
犬Aの写真をたくさん学習させて、犬Aが泳いでる絵」を出力するとかがうまくできない
>In this work, we present a new approach for personalization'' of text-to-image diffusion models (specializing them to users' needs).
本研究では、Text-to-Image拡散モデルを「個人化」する(ユーザのニーズに合わせて特化する)ための新しいアプローチを提示する。
>Given as input just a few images of a subject, we fine-tune a pretrained text-to-image model (Imagen, although our method is not limited to a specific model) such that it learns to bind a unique identifier with that specific subject.
被写体の画像をいくつか入力として与えるだけで、事前に学習したtext-to-imageモデル(Imagenをつかった。ただし、本手法は特定のモデルに限定されない)をfine tuningし、その被写体に固有の識別子を紐付けるように学習させる。
>Once the subject is embedded in the output domain of the model, the unique identifier can then be used to synthesize fully-novel photorealistic images of the subject contextualized in different scenes.
一旦、被写体がモデルの出力ドメインに埋め込まれると、その一意の識別子を用いて、様々なシーンで文脈に応じた被写体の完全に新しいフォトリアリスティック画像を合成できる
>By leveraging the semantic prior embedded in the model with a new autogenous class-specific prior preservation loss, our technique enables synthesizing the subject in diverse scenes, poses, views, and lighting conditions that do not appear in the reference images.
本手法は、参照画像に現れない状況(多様なシーン、ポーズ、ビュー、照明条件)での被写体の合成を可能にする。
モデルに埋め込まれた semantic prior embeddedを、新たな自己生成したclass-specific prior preservation lossを用いて利用することによって
>We apply our technique to several previously-unassailable tasks, including subject recontextualization, text-guided view synthesis, appearance modification, and artistic rendering (all while preserving the subject's key features).
本手法を、これまで困難とされてきたタスクに適用する(すべて被写体の主要な特徴を保持したまま)
被写体の再文脈化、テキストガイド付きビュー合成、外観修正、芸術的レンダリング


解説
>@divamgupta: DreamBooth is becoming popular for creating custom Stable Diffusion models using your images.
>Here is a beginner friendly thread on how it works: 🧵
>


>何か1つの対象物(ユーザー特定の被写体)をベースにした合成画像を生成するText-to-Imageモデルとなる。先日記事にした、ある概念を単語に圧縮して概念ベースで新たな画像を合成するText-to-Imageモデルと違い、今回はもう少し被写体ベースとなり、対象をより固定(高い忠実度の保持)して出力する。

>textual inversionが単語のembeddingのみを最適化するのに対して、モデル全体を最適化するために、より強力です。


主題の特徴を維持しながらtext to imageする
やりたいことはstyle transferとにている基素
img2img(stable diffusion)とは技術的に違うようだ
fidelity(入力画像の特徴を維持するか)やnew contextに対応

>

>Dreambooth で複数の概念を学習させるには同時に学習させなければならない。

cocabで実行できる