半年後にAIはいったいどうなっているのか 2025年上半期
ひとまず画像系でも、案外
DeepSeek-R1によって流行りだしているreasoning蒸留が組み込まれることで案外指や腕が増える問題解決するのでは?説を唱えてみる

vlmとの統合なども考えられる…がネックはやはりVRAM
サービスベースのモデルはどうしても色々な社会的制約がかかるので性能が上がった…とか言われてもその性能を自由に使わせてはくれないので…となる
Janus Pro:難しいかなと言っていた
vlm+画像生成、なんか半年すら立たずずに出たんだが?(生成AI RTA Vision2Image Any%)

ただ、期待した「自分で画像見れるモデルなら手足顔の破綻を自分で画像修正できるやろ」は出来るわけじゃなかった🫠

vlm+reasoningはそれなりに早く来そう、多分どっかが上半期には出しそう

最悪モデル差分でLora作ってそれでreasoning能力移植できるなら
Qwen2.5-Math(R1 qwen7bの素体とされている)とR1(Qwen 7b)で差分とってポン付けすれば…と思ったがVL版は2ベースで2.5ではなかったか…(微妙に互換性が無い)
計算資源的にローカル動作は難しそうだけど、reasoningとしてイメージ映像作って脳内シュミレート的なモデルもそろそろ理屈上は出せるんじゃないかな…
vlm+動画生成とかなるんで今の一般向けハードウェアではどう考えても動きそうにないが…

R1関連、
Claude 3.5 Sonnetとの組み合わせで性能が激増する報告が多数なので次世代Claude(4になる?)の性能に期待が出来る…とにかく地力がむちゃくちゃ高いのがR1でプロンプト工夫することでその性能をとことん引き出せてる感じ
reasoning能力の蒸留は既にめっちゃ流行ってるけど、
o3-miniが既にコーディングタスクではR1を上回ったりしてるので、ちゃんと蒸留できれば20B以下(つまりローカルで現実的に動くレベルで)でこのレベルの再現ができるのではないか…?と期待したい

そう考えるとおそらくV3系列は共通weightが概ね4Bほどで3つの専門家モデルを呼び出している構造なんかな?(憶測してないでコード見ろ、って言われたらはい…としか言えないが)
セキュリティ面から
データセンターへの投資が増える
運営のカントリーリスク等はあるがモデル自体が公開されてることもあり、
DeepSeek-R1辺りが動かせる環境は、データセンターの一つの基準になりそう(自鯖で動かす分にはそのへんの不安要素のかなりの部分が減らせるので)

上半期にはまず間に合わないだろうけど下半期〜来年にかけてはR1+αを推論するのに向いてる推論特化構成みたいなのはサービス的には(ハードウェアがでてくるなら)広まりそうな需要は出てきた(それくらいに体感レベルでR1は実用レベルの性能してる)
そういう状況になると企業向けの推論サービスを想定したモデルは400b〜700bクラスのものが普通に増えそうではある(大半はファインチューンモデルだろうが、基板モデルにしても「そのライン」を基準にして作りやすくもなる)(ご家庭で動かすのは辛い…😢)

動画生成AIへのパラハラの訪れ

データセットをDiTに食わせる勝負が、今、始まる…
動画生成AIの下流タスクとしての画像生成
AI登場以前の既存の制作手法に無い新しいワークフローや、動画を使った簡単なLoRA手法ができる気がする