ControlNet
neural networkのブロックの重みにトレーニング用のコピーを作る
元のモデルはロックして壊れないようにする
つまりどういうことだってばよ

基盤モデル(SD)と事前学習モデルを組み合わせてDepth2imgモデルみたいなものを作るにはA100みたいな超強力なGPUが必要だった
RTX3090tiみたいな個人が持つGPUでもできるようになったよ(?)
e.g.
User Scribbles
Fake Scribbles
Anime line Drawing
これはまだ使えない

このあたりさらっとすごいことやってない?

これからはファインチューニング×ControlNetモデルが出てくるのかな?

選択肢が無限大すぎる…
>「ControlNetのcontrol_sd15_segの使い方わかった
>ADE20kってルールで塗り分けられた画像(色にobjectの種類が割り当てられてる)を食わすと
>

>
>WebUIのSD-WebUI-ControlNetについて
>元画像からボーンや輪郭を認識し、それらを参照してt2iで出力できる
>実写や(AI)イラストなどから、似た構図を出力したい時
>今回は1枚目→2枚目にする工程を解説します(リプに続きます
>

>🤏1.45 GB→723 MB までちっちゃくなった
>ControlNet-modules-safetensors pruned fp16 set
>ControlNet向けfp16軽量マージはかどるw
>配合率(重み)はA+Bの100%足し算になるように
>
>
ボーンを手書きする人たち
>
読み取ってくれるボーンのフォーマットがあるのかな?

素朴な疑問
Stable Diffusion 1.5以外のモデルでも動くのはなぜ?

> canny:線画抽出。入力画像は二次元イラストがオススメ
> depth:深度情報抽出。入力画像は実写画像オススメ。
> hedn:ソフトエッジ検出。使い道が思いつかない
> mlsd:直線輪郭のみ検出。3Dモデリングされた部屋を入力する際オススメ
> normal_map:法線情報抽出。3Dデッサン人形などを入力すると良い
> openpose:姿勢検出。人体の姿勢のみを入力画像から取り出す際有用。
> openpose_hand:上記+手と五指検出。手が検出できないときはopenpose同様の処理をするので、openpose使う際は、常にopenpose_handがオススメ
> scribble:雑な落書きを元に構図認識。凄まじく雑な入力でもそこそこ意図通り
> fake_scribble:入力画像の輪郭を落書き風に変換。用途不明
> segmentation:入力画像の領域ごとの各要素を検出・塗り分け。理論上好きな場所に好きな要素を描写できるようになった。革命。