/work4ai/半年後にAIはいったいどうなっているのか 2025年上半期

generated at 2/17/2025, 5:47:44 PM
半年後にAIはいったいどうなっているのか 2025年上半期
ひとまず画像系でも、案外DeepSeek-R1によって流行りだしているreasoning蒸留が組み込まれることで案外指や腕が増える問題解決するのでは？説を唱えてみる
全く根拠がない話ではなくSDXLでもtext encoderを差し替えると文字をかけたと言う話が以前あったような…(凄いうろ覚え)
vlmとの統合なども考えられる…がネックはやはりVRAM
サービスベースのモデルはどうしても色々な社会的制約がかかるので性能が上がった…とか言われてもその性能を自由に使わせてはくれないので…となる
Janus Pro：難しいかなと言っていたvlm+画像生成、なんか半年すら立たずずに出たんだが？(生成AI RTA Vision2Image Any%)
ただ、期待した「自分で画像見れるモデルなら手足顔の破綻を自分で画像修正できるやろ」は出来るわけじゃなかった🫠
vlm+reasoningはそれなりに早く来そう、多分どっかが上半期には出しそう
最悪モデル差分でLora作ってそれでreasoning能力移植できるならQwen2.5-Math(R1 qwen7bの素体とされている)とR1(Qwen 7b)で差分とってポン付けすれば…と思ったがVL版は2ベースで2.5ではなかったか…(微妙に互換性が無い)
https://zenn.dev/kendama/articles/280a4089cb8a72Llama 3.1 8Bベースの方ならVisionモデル(Llama 3.2)waitに互換性ありそうなのでllm部分を差し替えるなり差分Loraなりで学習しなくてもreasoning能力ポン付けできそうな気配…(半年の話ですらない)
ChatVectorはフォーマット系を失う可能性が高い模様、単純に混ぜるのは難しそう…
計算資源的にローカル動作は難しそうだけど、reasoningとしてイメージ映像作って脳内シュミレート的なモデルもそろそろ理屈上は出せるんじゃないかな…vlm+動画生成とかなるんで今の一般向けハードウェアではどう考えても動きそうにないが…
R1関連、Claude 3.5 Sonnetとの組み合わせで性能が激増する報告が多数なので次世代Claude(4になる？)の性能に期待が出来る…とにかく地力がむちゃくちゃ高いのがR1でプロンプト工夫することでその性能をとことん引き出せてる感じ
reasoning能力の蒸留は既にめっちゃ流行ってるけど、o3-miniが既にコーディングタスクではR1を上回ったりしてるので、ちゃんと蒸留できれば20B以下(つまりローカルで現実的に動くレベルで)でこのレベルの再現ができるのではないか…？と期待したい
https://huggingface.co/mmnga/DeepSeek-V3-slice-jp64こちらのモデルを見る限りでは(DeepSeek-R1と基本構造は同じ)DeepSeek V3が16Bのモデルの集合体と推測されるので単モデルなら16Bあたりが十分な推論能力を得るのに必要なサイズ何じゃないかなーと予想。
そう考えるとおそらくV3系列は共通weightが概ね4Bほどで3つの専門家モデルを呼び出している構造なんかな？(憶測してないでコード見ろ、って言われたらはい…としか言えないが)
https://arxiv.org/html/2401.06066v1/#S2普通に論文に書いてた、汎用専門家x1+特化型の専門家x3の4モデルがアクティブだったか…よく読んだらDeepSeekMoEとかいう前の世代のアーキテクチャだった(無関係ではないだろうがV3そのものではない)
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdfV3の論文見たけどますますわからねぇってくらいに複雑なアーキテクチャをしている…

MN-Core L1000とかNVIDIA Project DIGITSとかでPCでもLLMが動くようになってほしい
セキュリティ面から
データセンターへの投資が増える
運営のカントリーリスク等はあるがモデル自体が公開されてることもあり、DeepSeek-R1辺りが動かせる環境は、データセンターの一つの基準になりそう(自鯖で動かす分にはそのへんの不安要素のかなりの部分が減らせるので)
上半期にはまず間に合わないだろうけど下半期〜来年にかけてはR1+αを推論するのに向いてる推論特化構成みたいなのはサービス的には(ハードウェアがでてくるなら)広まりそうな需要は出てきた(それくらいに体感レベルでR1は実用レベルの性能してる)
そういう状況になると企業向けの推論サービスを想定したモデルは400b〜700bクラスのものが普通に増えそうではある(大半はファインチューンモデルだろうが、基板モデルにしても「そのライン」を基準にして作りやすくもなる)(ご家庭で動かすのは辛い…😢)

動画生成AIへのパラハラの訪れ
データセットをDiTに食わせる勝負が、今、始まる…
世界モデルとしてのインタラクティブな動画生成AIの開発
動画生成AIの下流タスクとしての画像生成
AI登場以前の既存の制作手法に無い新しいワークフローや、動画を使った簡単なLoRA手法ができる気がする