generated at
Sora


https://zenn.dev/mattyamonaca/articles/e234e57834d7ad【AI動画生成】Sora 要素技術解説 by 抹茶もなか

diffusion Transformerと言う新単語?が出てる基素
diffusion modelであり、transformerをつかってスケーリングしている
まともに読んでないですが、この論文から来てるのかな?nomadoor
映像を学習しまくった結果世界モデル(物理シミュレータ)風に動くようになった、とあるwogikaze
最近LLMをどうコンパクトに動かすかの研究が多かったけど、創発は結局のところ数で殴ることでしか起きないのかなnomadoor
最近だとBase TTSも同じように数で殴ったら感情を表現できるようになった
みんなサム(パラハラの終焉)に騙されたんだぜ!
TinyLlama-1.1Bとか見てると小さくても学習数を増やせばどうにかなるみたいな流れは結局あるwogikaze

> Open AI introducing Sora
>
> text-to-video model
>
> Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions.
>
>
>

2024/12/9