/work4ai/Janus Pro - Scrapbox Reader

generated at 2/17/2025, 5:51:35 PM
Janus Pro
https://github.com/deepseek-ai/Janusdeepseek-ai/Janus
https://huggingface.co/deepseek-ai/Janus-Pro-1Bdeepseek-ai/Janus-Pro-1B
https://huggingface.co/deepseek-ai/Janus-Pro-7Bdeepseek-ai/Janus-Pro-7B
https://huggingface.co/deepseek-ai/JanusFlow-1.3Bdeepseek-ai/JanusFlow-1.3B
https://arxiv.org/abs/2411.07975JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

LLM: deepseek-llm-7b-baseを使っている
VLM: Siglip-L

https://gigazine.net/news/20250128-deepseek-janus-pro-image-model/DeepSeekが画像生成モデル「Janus Pro」をMITライセンスで公開、DALL·E 3を超える性能と自負 - GIGAZINE
タイトルが紛らわしい(多分記者も勘違いしてるのだろうが…)が、モデル自体はDeepSeekライセンス。商用利用などの制限はないようだがMITではない。

#DeepSeek_AI

最初見たときなんか派手に発表してる割には(ここ数ヶ月の)Vlmとしてそこまで特筆するべき所も無さそうな…と思ったらよく見たらまさかの(Vision)v2i(Image)出来るモデルなのね…(新設カテゴリすぎて最初わからなかった)
比較対象のVisionモデルが、こう今となっては「llavaとか懐かしいなー」ってなる名前だったので…(llm老人会)
調べたらLLaVA-1.5は2023年末あたりのモデルなので流石に懐かしい枠か？
公開されてるデモページのUIではVision2Imageをするメリットはあまり見られない(i2iなどはできていない)のでComfyUIなりでi2iして見ないとこの構造の利点は今の時点では判らない
https://x.com/itechnologynet/status/1884057859237060688Xでの投稿見る限り「版権もの」はほぼ学習してなさそう(マリオやピカチュウすら描けない)
あまりにも壊れすぎてるので、もしかしたら意図的に著名な版権はLECO等で消してるのかもしれない(単に実写ベースに全振りしてるのかもだが)
その後の報告(各種の投稿)も見るに、どうも実写系でも得意と下手でかなりブレ幅が大きい模様。
Visionモデルが統合されれば顔も手も破綻しない、そう思ってた時代が私にもありました…(あまり関係なかった)
https://x.com/mi141/status/1884163057628373303結構画像生成部分のアーキテクチャレベルで何度か迷ってたようだ