/work4ai/半年後にAIはいったいどうなっているのか 2023年上半期

generated at 2/17/2025, 5:47:45 PM
半年後にAIはいったいどうなっているのか 2023年上半期
💬雑談
この半年で
LLM
ChatGPT
画像生成
Stable diffusionV1.4→Stable diffusion2.1
Midjourney→Nijijourney
Midjourney v3 → v4でNijijourneyは別枠にしたほうが正確かも？
NovelAIDiffusion
画像生成の高速化：数秒～数十秒→コンマ数秒
音声認識
whisper
音楽生成
MusicLM
Moûsai

などなど色々公開された
次の半年でどうなるのか予想してみよう
個人的には画像→音声と来たなら次は動画かな？と思っている
txt2animationの時代だ
アニメ(MMD)をi2iした動画は852話さんが作っていたが一貫性を持たせるのに苦労しているみたい
この”一貫性”もキーワードになりそう
Shape-aware Text-driven Layered Video Editingみたいな編集も発達しそう
TTSはどうだろう、日本に住んでいるとゆっくりができてから長い年月が経って研究されているのでそこまで進まない？
半年じゃすぐに声を追加できる程度しか変わらなさそう

大サービス乱立時代！
QRコード決済然り、NFT然り
txt2img,img2img,InstructPix2Pix etc.を完全に統合させて最初から最後まで完全にチャットのみのワークフロー実現
→マルチモーダルAIの一歩手前？
2023/3/9 Visual ChatGPTで一応実現
チャットのみのワークフローがそもそもあまりデザインと相性が良くなかった
二次元を二次元のまま扱うアニメーションモデル
MMDのimg2imgはロトスコープであってアニメではない(過激派)
動画を動画のまま学習させるモデルってあるんだろうか？
text2videoモデルはたくさん出てきた
AnimateDiffがいい感じ
AIが直接現実世界を見て学ぶ
GPT-3みたいに臨界点を迎えれば動画AIもいきなり上手くいくかもしれない
でも現状学習させるための動画が足りないらしい
カメラつけて直接見てもらおう！
日本語LLM
日本語で表現することに意味があるような気がしないこともない
コスパがよくない気がしてきた
ChatGPTとかが日本語で聞いたとき英語に翻訳しているのか、日本語のまま理解しているのかでも意見が変わりそう
企業からはいくつか出たけど、コミュニティとしてはほぼ何もなかった
リアルタイムレンダリング
Emadさん、30fps楽しみにしてます
コンピューティングのコスト的な意味で難しそう
FlexGenとかを見てると最適化で辿りついてしまいそうな気もしますね
根本的なモデルの変化にも期待
SnapFusionとかでやろうと思えばできそうだけど、捨てられないものが多いのかなかなか進まない
LCM, SDXL-Turbo etc.
守備範囲を超えれば、ロボットにARにゲームに…ああ楽しみ！


総評 2023/7/1