generated at
AnyDoor
対象のオブジェクトを画像内の指定した位置に移動させる画像編集手法
対象のオブジェクトをIdentity Feature ExtractionとDetail Feature Extractionに分けて注目し、拡散モデルに注入する
学習データに動画を活用する
動画内の一方のフレームでは対象のオブジェクトを切り抜く
別のフレームではボックスで切り抜いて、モデルが作りたい画像の例として使う
正則化画像?nomadoor
モデルの学習に動画を使うのはなにげに初めて見た気がするnomadoor
生成画像の一貫性を保つのには動画のほうが良いだろうとは思っていたのでこれから研究が進んでいって欲しい

inpainting

Prunedモデル(16.8GB → 4.9GB)

関連