対象のオブジェクトを画像内の指定した位置に移動させる

対象のオブジェクトをIdentity Feature ExtractionとDetail Feature Extractionに分けて注目し、拡散モデルに注入する

動画内の一方のフレームでは対象のオブジェクトを切り抜く

別のフレームではボックスで切り抜いて、モデルが作りたい画像の例として使う

のはなにげに初めて見た気がする

生成画像の一貫性を保つのには動画のほうが良いだろうとは思っていたのでこれから研究が進んでいって欲しい