半年後にAIはいったいどうなっているのか 2023年上半期
この半年で
LLM
画像生成
Stable diffusionV1.4→Stable diffusion2.1
Midjourney→Nijijourney
Midjourney v3 → v4でNijijourneyは別枠にしたほうが正確かも?

音声認識
音楽生成
などなど色々公開された
次の半年でどうなるのか予想してみよう

個人的には画像→音声と来たなら次は動画かな?と思っている
txt2animationの時代だ
アニメ(MMD)をi2iした動画は852話さんが作っていたが
一貫性を持たせるのに苦労しているみたい
この”一貫性”もキーワードになりそう
TTSはどうだろう、日本に住んでいるとゆっくりができてから長い年月が経って研究されているのでそこまで進まない?
半年じゃすぐに声を追加できる程度しか変わらなさそう
大サービス乱立時代!
QRコード決済然り、NFT然り
txt2img,img2img,InstructPix2Pix etc.を完全に統合させて最初から最後まで完全にチャットのみのワークフロー実現
チャットのみのワークフローがそもそもあまりデザインと相性が良くなかった
二次元を二次元のまま扱うアニメーションモデル
MMDのimg2imgは
ロトスコープであってアニメではない(過激派)
動画を動画のまま学習させるモデルってあるんだろうか?
AIが直接現実世界を見て学ぶ
GPT-3みたいに臨界点を迎えれば動画AIもいきなり上手くいくかもしれない
でも現状学習させるための動画が足りないらしい
カメラつけて直接見てもらおう!
日本語で表現することに意味があるような気がしないこともない
コスパがよくない気がしてきた
ChatGPTとかが日本語で聞いたとき英語に翻訳しているのか、日本語のまま理解しているのかでも意見が変わりそう
企業からはいくつか出たけど、コミュニティとしてはほぼ何もなかった

リアルタイムレンダリング
Emadさん、30fps楽しみにしてます
コンピューティングのコスト的な意味で難しそう

FlexGenとかを見てると最適化で辿りついてしまいそうな気もしますね

根本的なモデルの変化にも期待

守備範囲を超えれば、ロボットにARにゲームに…ああ楽しみ!
総評 2023/7/1