/work4ai/DiffSensei - Scrapbox Reader

generated at 2/17/2025, 5:42:14 PM
DiffSensei
https://youtu.be/TLJ0MYZmoXc
https://jianzongwu.github.io/projects/diffsensei/Project
https://github.com/jianzongwu/DiffSenseijianzongwu/DiffSensei
https://arxiv.org/abs/2412.07589DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation
既存のstory visualizationは一貫したキャラクター生成や物語に合わせたレイアウトを変更することができない
既存のSubject-Driven Image Generationはコピペ効果を生み出す傾向がある
キャラクターの特徴だけでなく参照画像上の向き・ポーズ等まで受け継いでしまう
Customized Manga Generation
マンガ生成のための新しいタスク
MangaZero
データセット
cf. MangaDex
DiffSensei
キャラクター特徴量抽出
CLIP & マンガ専用であるMagi
Masked cross-attention injection
>マンガパネル内の各キャラクターが割り当てられた領域（バウンディングボックス）内でのみ特徴を参照できるようにすることで、効率的かつ正確なレイアウト制御を実現します。

e.g.
>