/evergreens/画像版ホネホネプロンプトの改良版

generated at 2/17/2025, 8:03:47 AM
画像版ホネホネプロンプトの改良版
背景
画像版のホネホネプロンプトを使って、DALL-E3 + GPT-4Vの出力実験を行った
実験1: GPT-4Vを使ってDALL-E3で画像を作る(Image to Image)
実験2: GPT-4Vを使ってDALL-E3で画像を作る(Image to Image)
実験3: GPT-4Vを使ってDALL-E3で画像を作る(Image to Image)
実験4: GPT-4Vを使ってDALL-E3で画像を作る(Image to Image)

実験3においては、画像を説明した文章 + 画像版のホネホネプロンプトを合わせて行った
これを一つのホネホネに入れ、さらに
各項目の文章をより詳細にしたら出力結果はどうなるか？
各項目の文章を一言二言に圧縮したらどうなるか？
これらを検証し、最適なホネホネプロンプトとは何か？を追求する

方法
Version1
以下のホネホネとする
>この画像を読み取り、以下の項目を抽出してそれぞれ英語で埋めてください。
> この抽出結果は、画像生成AIの入力データ、つまりプロンプトとして、類似画像を生成するために使用します。
> 該当する要素がない場合は空欄でお願いします。例えば風景写真で人物描写が無い場合は、服装や髪型などは無視します。
> また、以下の情報以外に、画像に特筆すべき要素があれば補足してください。
> 
> # この画像の詳細説明  (must be described with more than 300 words)
>  
> # この画像のコンセプト (each element must be described with more than 100 words)
> ・ジャンル (例:肖像画、風景、ファッション、食品、旅行など)
> ・被写体 (例:人物、動物、物体など)
> ・行動/ポーズ (例:座っている、歌っている、走っている)
> ・感情/表情 (例:困っている、喜んでいる)
> ・服装 (例:黒いスーツ、白いパーカー)
> ・背景 (例:空、天気、建物、山、海など)
> ・シチュエーション (例:時間帯、天気、季節、シーンなど)
>   
> # この画像のスタイル  (each element must be described with more than 100 words)
> ・画風 (例:印象派、写実主義、ロマン主義など)
> ・技法 (例:水彩画、油絵、フラットデザイン、ピクセルアートなど)
> ・画質 (例:4K, 8K)
>  
> # この画像の構図 (each element should be described with more than 100 words)
> ・配置とバランス　(例:3分割、黄金比)
> ・焦点と注目点
> ・視線と動線例:  (例:リーディングライン)
> ・スケールと比率  (例:Forced Perspective)
> ・対称性と非対称性 (例:対称)
> ・角度と視点  (例:ワームズアイ・ビュー、バードビュー)
> ・色とコントラスト  (例:カラーコントラスト)
> ・形状と線  (例:ジオメトリック)
> 
実験5: GPT-4Vを使ってDALL-E3で画像を作る(Image to Image)


Version2
以下のホネホネとする
>この画像を読み取り、以下の項目を抽出してそれぞれ英語で埋めてください。
> この抽出結果は、画像生成AIの入力データ、つまりプロンプトとして、類似画像を生成するために使用します。
> 複数該当がある場合はカンマと半角スペースで区切って羅列し、各項目は最大4個のデータ数にしてください。
> 該当する要素がない場合は空欄でお願いします。例えば風景写真で人物描写が無い場合は、服装や髪型などは無視します。
> また、以下の情報以外に、画像に特筆すべき要素があれば補足してください。
> 
> # この画像の詳細説明  (less than 100 words) 
>  
> # この画像のコンセプト (each element must be described with less than 10 words)
> ・ジャンル (例:肖像画、風景、ファッション、食品、旅行など)
> ・被写体 (例:人物、動物、物体など)
> ・行動/ポーズ (例:座っている、歌っている、走っている)
> ・感情/表情 (例:困っている、喜んでいる)
> ・服装 (例:黒いスーツ、白いパーカー)
> ・背景 (例:空、天気、建物、山、海など)
> ・シチュエーション (例:時間帯、天気、季節、シーンなど)
>   
> # この画像のスタイル  (each element must be described less than 10 words)
> ・画風 (例:印象派、写実主義、ロマン主義など)
> ・技法 (例:水彩画、油絵、フラットデザイン、ピクセルアートなど)
> ・画質 (例:4K, 8K)
>  
> # この画像の構図 (each element should be described with less than 10 words)
> ・配置とバランス　(例:3分割、黄金比)
> ・焦点と注目点
> ・視線と動線例:  (例:リーディングライン)
> ・スケールと比率  (例:Forced Perspective)
> ・対称性と非対称性 (例:対称)
> ・角度と視点  (例:ワームズアイ・ビュー、バードビュー)
> ・色とコントラスト  (例:カラーコントラスト)
> ・形状と線  (例:ジオメトリック)
実験6: GPT-4Vを使ってDALL-E3で画像を作る(Image to Image)


最終結論
Version1の方が精度が高かった。
改良版は、Version1のプロンプトを使う。
ハルシネーションが起きたら、文字数の指定を減らす。(特に画像の詳細説明の単語数)