generated at
2/17/2025, 5:42:14 PM
DiffSensei
https://youtu.be/TLJ0MYZmoXc
https://jianzongwu.github.io/projects/diffsensei/
Project
https://github.com/jianzongwu/DiffSensei
jianzongwu/DiffSensei
https://arxiv.org/abs/2412.07589
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation
既存の
story visualization
は一貫したキャラクター生成や物語に合わせたレイアウトを変更することができない
既存の
Subject-Driven Image Generation
は
コピペ効果
を生み出す傾向がある
キャラクターの特徴だけでなく参照画像上の向き・ポーズ等まで受け継いでしまう
Customized Manga Generation
マンガ生成
のための新しいタスク
MangaZero
データセット
cf.
MangaDex
DiffSensei
キャラクター特徴量抽出
CLIP & マンガ専用である
Magi
Masked cross-attention injection
>
マンガパネル内の各キャラクターが割り当てられた領域(バウンディングボックス)内でのみ特徴を参照できるようにすることで、効率的かつ正確なレイアウト制御を実現します。
e.g.
>