300枚以上の人工的にトリミングされ、タグ付けされた512x512サイズのアニメイラスト画像をトレーニングセットとして使用し、

 7Gモデルの微調整を行うようにしています。学習セット画像1枚につき100エポック、高い学習率で学習させました。正則化された画像は使っていない。また、テキストエンコーダの訓練も行った。

Merge Block Weightedを使って3つのモデルを統合し、このAnimeIllustDiffusionモデルを作成しました。3つのモデルのうち、1つのモデルはスタイルとテキストエンコーダー（ベースアルファとすべてのOUTレイヤー）に、1つのモデルは手のディテールの最適化（INレイヤー00〜05）に、もう1つのモデル（

）はより良い構図の提供（INレイヤー06〜11とM00レイヤー）に使用されている。

との併用、というか研究目的に作られたモデル？