generated at
ERNIE-ViLG 2.0

Submitted on 27 Oct 2022
>Recent progress in diffusion models has revolutionized the popular technology of text-to-image generation. While existing approaches could produce photorealistic high-resolution images with text conditions, there are still several open problems to be solved, which limits the further improvement of image fidelity and text relevancy.
DeepL: 最近の拡散モデルの進歩は、テキストから画像への変換という一般的な技術に革命をもたらした。
既存のアプローチは、テキスト条件を持つ写実的な高解像度画像を生成することができるが、解決すべきいくつかの未解決の問題が残っており、画像の忠実性とテキストの関連性のさらなる向上を制限している。
> In this paper, we propose ERNIE-ViLG 2.0, a large-scale Chinese text-to-image diffusion model, which progressively upgrades the quality of generated images~by:
>(1) incorporating fine-grained textual and visual knowledge of key elements in the scene, and
> (2) utilizing different denoising experts at different denoising stages.
本論文では、大規模な中国語テキストから画像への拡散モデルであるERNIE-ViLG 2.0を提案し、生成画像の品質を段階的に向上させる。これらによって:
(1)シーン内の重要な要素に関するきめ細かいテキストと視覚の知識を取り入れる
これは学習段階でのみ行う
Textの知識の注入
課題:promptに出てくるものが重要だが、オリジナルのDiffusion Modelでは、重要度を加味せずにdenoisingする
アプローチ
特定の品詞の重視
品詞を解析してタグづけして挿入(図2の [a] とか)
attention layerで特定の品詞の重みを大きくする
Imageの知識の注入
物体認識して注目ポイントを重視して生成させる
検出アルゴリズム:https://doi.org/10.1109/CVPR.2018.00636
注目ポイントはヒューリスティックで選ぶ
その領域に高い重みを割り当てる=その領域を重点的に生成する
物体認識で認識するがpromptに含まれないクラス(例:図2のお椀)は元のプロンプトに追加する
他にも小細工してる
キャプションを自動生成して元のプロンプトをランダムに置き換える
自動生成キャプションは、元のプロンプトより簡潔になってセマンティクスがわかりやすい傾向がある
(2)異なるノイズ除去ステージで異なるノイズ除去専門家を利用する
こうなる
visualやtextだけの工夫だとダメなのに両方組み合わせるといい結果になっている基素
>With the proposed mechanisms, ERNIE-ViLG 2.0 not only achieves the state-of-the-art on MS-COCO with zero-shot FID score of 6.75, but also significantly outperforms recent models in terms of image fidelity and image-text alignment, with side-by-side human evaluation on the bilingual prompt set ViLG-300.
ERNIE-ViLG 2.0は、MS-COCOにおいてゼロショットFIDスコア6.75を達成しただけでなく、画像忠実度と画像-テキストアライメントの点で、最近のモデルを大幅に凌駕しています(バイリンガルプロンプトセットViLG-300の人間評価による)。