generated at
conditional image leakage
>> Conditional Image / DynamiCrafter / + Our Inference Strategy
conditional image leakage (CIL)
image2videoができる拡散モデル(Stable Video Diffusion, DynamiCrafter etc.)は、入力された画像に頼りすぎてしまい、動きがほとんどないビデオができてしまう
>GPT-4通常、I2V生成では、ノイズの多い入力画像からビデオを作り、条件画像はそのサポート役としてディテールを補います。しかし、時間が経つとノイズの多い画像が情報を失い、条件画像のディテールだけが残ります。その結果、モデルは条件画像に頼りすぎ、ノイズの多い入力を無視するようになり、動きが少ない静止したビデオを生成してしまいます。