> Conditional Image / DynamiCrafter / + Our Inference Strategy

 etc.)は、入力された画像に頼りすぎてしまい、動きがほとんどないビデオができてしまう

通常、I2V生成では、ノイズの多い入力画像からビデオを作り、条件画像はそのサポート役としてディテールを補います。しかし、時間が経つとノイズの多い画像が情報を失い、条件画像のディテールだけが残ります。その結果、モデルは条件画像に頼りすぎ、ノイズの多い入力を無視するようになり、動きが少ない静止したビデオを生成してしまいます。