/work4ai/controlnet - Scrapbox Reader

generated at 2/12/2025, 10:24:08 AM
ControlNet
https://github.com/lllyasviel/ControlNethttps://colab.research.google.com/drive/1VRrDqT6xeETfMsfqYuCGhwdxcC2kLd2P?usp=sharing
モデル https://huggingface.co/lllyasviel/ControlNet
ControlNetモデル
Paper https://arxiv.org/abs/2302.05543Adding Conditional Control to Text-to-Image Diffusion Models
neural networkのブロックの重みにトレーニング用のコピーを作る
元のモデルはロックして壊れないようにする
"zero convolution"とは、重みとバイアスを共にゼロで初期化した1×1コンボリューションのことである。??
つまりどういうことだってばよ
基盤モデル(SD)と事前学習モデルを組み合わせてDepth2imgモデルみたいなものを作るにはA100みたいな超強力なGPUが必要だった
RTX3090tiみたいな個人が持つGPUでもできるようになったよ(？)

https://github.com/cobanov/awesome-controlnetAwesome ControlNet
https://zenn.dev/minux302/articles/e47be4bcd14453新時代の pix2pix？ ControlNet 解説
>入力に対して画像で条件づけする Diffusion modelである ControlNet の解説をします。


ControlNet with 事前学習モデル
e.g.
Canny Edge
OpenPose
MiDaS depth map
M-LSD Lines
HED Boundary
User Scribbles
Fake Scribbles
Semantic Segmentation
Normal Map
Anime line Drawing
これはまだ使えない
このあたりさらっとすごいことやってない？
これからはファインチューニング×ControlNetモデルが出てくるのかな？
選択肢が無限大すぎる…
>5chより
>「ControlNetのcontrol_sd15_segの使い方わかった
>ADE20kってルールで塗り分けられた画像（色にobjectの種類が割り当てられてる）を食わすと
>その意味にそって出力される」
>
>理屈はわかるが良い使い方が分からんｗ写真からオブジェクト色分けしてくれるプログラムとかあんのかな🤔 #AIイラスト PROTO@AiArt
>
Gradioはクソ

https://github.com/lllyasviel/ControlNet/discussions/12
>
https://github.com/Mikubill/sd-webui-controlnetWebUI extension for ControlNet
>WebUIのSD-WebUI-ControlNetについて
>
>・どんなもの？
>元画像からボーンや輪郭を認識し、それらを参照してt2iで出力できる
>
>・どんな時に使う？
>実写や（AI）イラストなどから、似た構図を出力したい時
>
>今回は1枚目→2枚目にする工程を解説します（リプに続きます
>#automatic1111 #AIイラスト #AIart Lu:Na:Clock（AI術師）
>
Support Stable Diffusion V2 · lllyasviel/ControlNet@2a4424c · GitHub
>さらに、fp16にprunedしたsafetensorsセット！
>
>🤏1.45 GB→723 MB までちっちゃくなった
>
>ControlNet-modules-safetensors pruned fp16 set
>https://t.co/POGymJY3lw
>
>ControlNet向けfp16軽量マージはかどるｗ
>配合率(重み)はA+Bの100%足し算になるように
>key="control_model."でkeyが違うから全足し forasteran
>
>ControlNetのPose用2d座標書き出しBlenderプラグインが出来た トニモノ
>


ボーンを手書きする人たち
>@toyxyz3: ControlNet additional arm test [stable diffusion(stablediffusion)] #AIイラスト #pose2image
>
読み取ってくれるボーンのフォーマットがあるのかな？

素朴な疑問
Stable Diffusion 1.5以外のモデルでも動くのはなぜ？

#lllyasviel

https://huggingface.co/docs/diffusers/main/en/using-diffusers/controlling_generationdiffusers

https://economylife.net/controlner-all-preprocessor/# ControlNetの全Preprocessor比較＆解説 用途ごとオススメはどれ？ | 経済的生活日誌
>  canny：線画抽出。入力画像は二次元イラストがオススメ
>  depth：深度情報抽出。入力画像は実写画像オススメ。
>  hedn:ソフトエッジ検出。使い道が思いつかない
>  mlsd：直線輪郭のみ検出。3Dモデリングされた部屋を入力する際オススメ
>  normal_map：法線情報抽出。3Dデッサン人形などを入力すると良い
>  openpose：姿勢検出。人体の姿勢のみを入力画像から取り出す際有用。
>  openpose_hand：上記＋手と五指検出。手が検出できないときはopenpose同様の処理をするので、openpose使う際は、常にopenpose_handがオススメ
>  scribble：雑な落書きを元に構図認識。凄まじく雑な入力でもそこそこ意図通り
>  fake_scribble：入力画像の輪郭を落書き風に変換。用途不明
>  segmentation：入力画像の領域ごとの各要素を検出・塗り分け。理論上好きな場所に好きな要素を描写できるようになった。革命。

画像のコントロール