generated at
半年後にAIはいったいどうなっているのか 2023年上半期
この半年で
LLM
画像生成
Stable diffusionV1.4→Stable diffusion2.1
Midjourney→Nijijourney
Midjourney v3 → v4でNijijourneyは別枠にしたほうが正確かも?nomadoor
画像生成の高速化:数秒~数十秒→コンマ数秒
音声認識
音楽生成

などなど色々公開された
次の半年でどうなるのか予想してみようwogikaze
個人的には画像→音声と来たなら次は動画かな?と思っている
txt2animationの時代だ
アニメ(MMD)をi2iした動画は852話さんが作っていたが一貫性を持たせるのに苦労しているみたい
この”一貫性”もキーワードになりそう
Shape-aware Text-driven Layered Video Editingみたいな編集も発達しそう
TTSはどうだろう、日本に住んでいるとゆっくりができてから長い年月が経って研究されているのでそこまで進まない?
半年じゃすぐに声を追加できる程度しか変わらなさそう

nomadoor
大サービス乱立時代!
QRコード決済然り、NFT然り
txt2img,img2img,InstructPix2Pix etc.を完全に統合させて最初から最後まで完全にチャットのみのワークフロー実現
マルチモーダルAIの一歩手前?
2023/3/9 Visual ChatGPTで一応実現nomadoor
チャットのみのワークフローがそもそもあまりデザインと相性が良くなかった
二次元を二次元のまま扱うアニメーションモデル
MMDのimg2imgはロトスコープであってアニメではない(過激派)
動画を動画のまま学習させるモデルってあるんだろうか?
text2videoモデルはたくさん出てきたnomadoor
AnimateDiffがいい感じwogikaze
AIが直接現実世界を見て学ぶ
GPT-3みたいに臨界点を迎えれば動画AIもいきなり上手くいくかもしれない
でも現状学習させるための動画が足りないらしい
カメラつけて直接見てもらおう!
日本語で表現することに意味があるような気がしないこともない
コスパがよくない気がしてきた
ChatGPTとかが日本語で聞いたとき英語に翻訳しているのか、日本語のまま理解しているのかでも意見が変わりそう
企業からはいくつか出たけど、コミュニティとしてはほぼ何もなかったnomadoor
リアルタイムレンダリング
Emadさん、30fps楽しみにしてます
コンピューティングのコスト的な意味で難しそう基素
FlexGenとかを見てると最適化で辿りついてしまいそうな気もしますねnomadoor
根本的なモデルの変化にも期待基素
SnapFusionとかでやろうと思えばできそうだけど、捨てられないものが多いのかなかなか進まないnomadoor
守備範囲を超えれば、ロボットにARにゲームに…ああ楽しみ!


総評 2023/7/1