画像生成AIでリアルな写真を作りたい
「画像生成AI」と聞くと、アニメ風のイラストを想像する人も多いかもしれません。しかし個人的には、リアルな写真のような、実在しそうな画像を作るのが楽しいです。
このリアル志向の写真を作るのに適しているのが、ImageFX という生成アプリです。これは、Googleが開発した新しい画像生成AI「Imagen 3」を採用した高性能なサービス。
imageFXの特徴
ImageFXは、以下のような特徴を持つとされています。
- クオリティが高い:細かい部分までリアルに表現できる
- 操作が簡単:特別な知識がなくても直感的に使える
- 無料で試せる(将来的に有料プランが導入される可能性はあり)
日本語にも対応しているという情報はあるのですが、私の場合日本語だと画像が生成されませんでした。今のところ英語が一番うまくいくようです。英語が分からなくても、翻訳アプリで英語に翻訳したり、ChatGPTで英語プロンプトを作成をすればOKです。
imageFXの使い方
例えば、「Landscape with blue sky and white clouds」(青い空と白い雲のある風景)と入力すると、その説明にぴったりの画像が生成されるのです。一度に最大4枚まで生成されます。しかも生成スピードが速く、約10秒で生成されます。

以前はすぐに一日の制限枚数を超えて使えなくなっていましたが、今は1日30回まで利用できるようです。制限に達した場合は、翌日まで待つしかありません。ただ、趣味で使う程度なら、よほど頻繁に利用しない限り制限に達することはなさそうです。
また、過去に生成した画像は「マイライブラリ」からいつでも閲覧・ダウンロードが可能です。検索機能もあり便利ですが、プロンプトを忘れてしまったり、スクロールに時間がかかったりすることもあるため、過去の画像にアクセスしづらい場合があります。気に入った画像は、すぐにダウンロードしておくのがおすすめです。
「ラーメンを食べる日本人女性」というテーマで遊んでみる
風景の写真や、今まで見たことのない荒唐無稽な画像を作るのも面白いですが、人物の画像を生成するというのも楽しいです。
今回は「ラーメンを食べる日本人女性」をテーマにして、理想的な画像を作る過程をゆるく書いてみます。特に深い内容ではないので、気軽に読んでもらえたら嬉しいです。
最初に生成された画像

2杯食べようとしています。具から食べる派のようです。しかもリアルな写真のような画像を期待していましたが、イラストになってしましました。
これはありがちな失敗で、写真にしてほしい旨をプロンプトに含ませることを忘れてしまうパターンです。次は「35mm film」というワードを追加してみましょう。

かなりリアルな写真のような仕上がりになりました。冷やしラーメンでなければ、彼女の左手は火傷しているかもしれませんが、それ以外は違和感がありません。
強いて言えば、どんぶりに書かれた文字が何なのか分からないデザインですね。やはり、日本語や漢字の再現はまだ難しいようです。でも、この画像は間違いなく屋台で冷やしラーメンを食べる女性の姿です。
ただ、髪型や表情が微妙なので、そのあたりを少し調整してみましょう。

今回も引き続き冷やしラーメンになってしまいましたが、おいしそうな塩ラーメンです。特に煮卵の半熟加減が絶妙ですね。そして、女性が笑顔でカメラ目線になったことで、一気に親近感が増しました。
ただ、よく見ると右手の指が6本あるようにも見えます。AIにとっては指の形は複雑であり、指は5本という常識も通用しないようです。このあたりは「5本の指で箸を持つ」といったワードを追加したり、「手に役割を持たせる」などで対策できるらしいですが、まだ運の要素もあるようです。
場所を中華料理屋に変更
場所を変えてみました。これまでは屋台のような屋外でしたが、今回は一般的な中華料理屋に設定。照明は蛍光灯にして、陰影を強調し、少しさびれた雰囲気を演出してみました。

いい感じに仕上がってきました。店内のメニューの文字は、日本語が読める人なら違和感があるかもしれませんが、そうでなければ特に気にならないでしょう。
細かく見ると、やはり箸を持つ右手の指の感じや、麺が箸に絡みすぎている点など、少し不自然な部分はあります。でも、ぱっと見はかなりいい写真になっています。相当おいしいラーメンなんでしょうか、店員と仲良しなのか、満面の笑みが印象的です。今回はちゃんとテーブルの上にどんぶりを置いて食べていますし、湯気が出ていて熱々のラーメンであることも伝わります。
それにしても、服のしわの感じや、カウンターの影が椅子に落ちる具合など、かなりリアルですね。変な文字のメニュー部分はトリミングしてしまえば、全体的に違和感のない仕上がりになりました。

ちょっとした演出を追加してみる
こうなってくると、次は細かい演出を入れたくなります。
ラーメンを食べる長髪の人あるあるとして、「髪を手で押さえながら食べる」動作をプロンプトに加えてみることにしました。これで、より自然なシーンになるはずです。
さらに、髪色も調整。より自然なブラウン系にして、全体の雰囲気をリアルに寄せていきます。

丼とレンゲが一体化していることや、麺の量が異様に多いことを除けば、かなりリアルな画像になったのではないでしょうか。
特に、セーターの袖に毛玉がついているのが妙にリアルです。そして何より、髪の毛の質感がすごい。細かい部分までしっかり再現されています。
次は、「ラーメンを食べる前に髪の毛を結ぶしぐさ」を入れてみることにします。

いい感じになってきました。指が自然に隠れるので、完成度はかなり高いと思いきや…ラーメンがカウンターのギリギリに置かれていて、ちょっと不安定なバランス。さらに、よく見ると人物も椅子の端ギリギリに座っています。
それでも、「髪を後ろで束ねるしぐさ」には、時代を超えて不思議な求心力がありますね。自然な動作のはずなのに、なぜか目を引く魅力がある。
ゆるカワ系の要素を追加
指も隠れるし、この仕草は使えるぞ! ということで、このままの雰囲気で服装を変えてみます。ChatGPTに提案してもらった「ゆるカワ&リラックス系」の要素を追加して、より親しみやすい雰囲気にしてみましょう。

今回もラーメンの位置と座る位置が際どいですが、そこまで気になるレベルではありません。
よく考えると、これらの画像はいったい誰目線なんだろう? という疑問はありますが、雑誌のグラビアだと思えば、その違和感も吹き飛びますね。
次は別の角度からの画像。服装も髪型もほぼ同じですが、どんな雰囲気になるのか試してみます。

ここでふと疑問が湧いてきます。
この人物は同じ人に見えなくもないけれど、実際はどうなんだろう? もちろん、実在する人間ではないので、「同じ人間」と言うのはおかしいかもしれません。
でも、もしAIが生成した画像だと言わなければ、多くの人は「同じ人物」として認識するのではないでしょうか。

服装を変えても、同じ人物に見えなくもないですね。
レンゲをカウンターに直置きしているのは個人的に少し気になりますが、全体的にはいい感じの写真です。
ちなみに、ChatGPTによると、顔の造形について特に指定しなければ、自動的に美形になるとのことです。
以下、ChatGPT談。
何も指定しない場合、一般的には中性的でバランスの取れた美形になりやすい。特に、AIが生成する画像では次のような傾向がある。
- 顔の形
卵型 (oval face) がデフォルトになりやすい。これは「最もバランスが良く、万人受けする」とされている形だから。丸顔や面長にするには明確に指示する必要がある- 目の形
やや大きめでアーモンド型になりやすい。日本人女性の理想的な目の形としてAIが学習している可能性が高い。可愛らしさやクールさを強調したい場合は「丸い目」「切れ長の目」などを指定した方がいい- 眉の形
ナチュラルな太さ&アーチ型の眉になりやすい。これは「整った美形顔」に見せるためのバランスを取るデフォルトの形。クールな印象を出したい場合は「まっすぐな眉」を指定すると良い- 鼻の形
細めでスッとした鼻になりやすい。欧米的な美の基準が影響しているため、比較的高く細い鼻になりやすい。もっとリアルな日本人らしさを出すなら「小さめの鼻」「少し丸みのある鼻」などを明記すると良い- 唇の形
適度にふっくらしていて、形が整った唇になりやすい。AIのデフォルトは「ちょうどいい厚みのある、バランスの取れた唇」。もう少し可愛らしくするなら「小さめの唇」、セクシー寄りにするなら「厚めの唇」を指定すると良い- 肌の質感・色
自然な明るめの肌になりやすい。欧米の「透き通るような白い肌」の影響を受けつつ、アジア系の肌色を少しブレンドした感じ。健康的な小麦色やオリーブ系の肌にしたい場合は明記が必要
また、技術的な制約もあるようです。
潜在空間(AIが学習した特徴の集合を圧縮して表現する空間) の次元数には限りがあるため、顔の微細な差異(例えば、目の角度が0.5mm違うといったレベル)を完全に再現するのは難しいとのこと。つまり、細かいディティールの違いを表現しにくいらしいです。
さらに、生成プロセスのノイズ除去アルゴリズムが「安全な平均値」を選びやすい傾向にあり、極端な顔立ちを避けることで、結果的に美形になりやすいようです。「平均的な顔ほど美しいと認識される」というのは有名な話です。
では、どの程度、自分の指定した顔の特徴を再現できるのでしょうか?
顔の造形を調整してみる
試しに、具体的な顔の特徴を指示してみます。丸顔・一重まぶた・低く小さな鼻・薄い唇・日焼けした肌 という条件を追加して生成してみましょう。

うーん、あまり指定した特徴がしっかり反映されている気はしませんが、先ほどの人物とは多少違う印象がありますね。

そして、ここにきてラーメンの丼が初めて黒色になりました。黒い丼のほうがなんとなくおいしそうに見えるのはわたしだけでしょうか。もしかすると、「日に焼けた浅黒い肌」というワードの影響で、丼の色まで変わったのかもしれません。
髪型を変えてみる
丸顔で切れ長の目、小さめで丸い鼻。さらに、髪型も黒髪のショートボブに変更 という指定で生成してみます。

明らかに、先ほどの人物とは違う人に見えますね。
顔の形は「丸顔」と指定したので、さっきよりもふっくらとした印象です。鼻の高さも、先ほどより少し低めに仕上がっています。
大きく見ると似たような顔なのかもしれませんが、髪色と髪型が違うだけで印象がかなり変わります。今回は、腹が減りすぎているのか、割り箸を折る勢いで箸をつかんでいます。そして指も、小指が途中で消えてしまっていたりして…やはりこのあたりの細かい部分はまだ難しいですね。
ちなみに、「左手のひらを左の頬につけて“美味しい!”というジェスチャーを」と指示したのですが、どうやってもそれが再現されず、謎のポーズになりました。これはこれでアリということで。
複数人にしたら全員同じ顔になる?
では、次に 複数人を生成 したらどうなるのでしょうか?全員同じ顔になってしまうのか、それともちゃんと個性が出るのか、試してみます。

いや、普通に個性がありますね。
複数人いて、全員が同じ顔というのは現実ではほとんどありえないので、人を増やせば自然と違う顔が生成されるのも当然といえば当然です。

こちらはネトフリ版「阿修羅のごとく」をイメージした四姉妹の図。あんま面白くなさそう。
双子の写真は生成可能?
では、双子が並んでいる写真 は作れるのでしょうか?まったく同じ顔の二人を再現できるのか、試してみます。

かなり似ていますね。
「双子です」と言われたら、確かにそう見えるレベルではないでしょうか。

こちらは正真正銘、双子と言えそうですね。
ただ、今回も丼を持ってしまう。どうしても 「丼をテーブルの上に置く」 という指示を忘れてしまいます。日本では 「ラーメンのどんぶりを持たずに食べる」 のが一般的ですが、AIはそのルールを理解していないのかもしれません。
服装を変えてみる
やはり、画像生成は面白いですね。しかも、この ImageFX は生成スピードがやたら速いので、ストレスが少ないのが嬉しいところです。
では、ここからは ChatGPTに様々な衣装を提案してもらい、引き続きラーメン女子を生成していきたいと思います。
まずは、Y2Kファッション から。Y2K(ワイツーケー) とは、「Year 2000」の略で、1990年代後半から2000年代初頭に流行したファッションやカルチャーのこと。最近、リバイバルされて再び人気が高まっています。とのこと。

なかなか珍しい雰囲気の画像になりました。明らかにSNS映えを意識した写真という感じですね。
次は「マイルドヤンキー」という設定で生成してみます。
ChatGPTによると、マイルドヤンキーのファッション は、「ちょいワル感+実用性+地元愛」が特徴とのこと。どんな仕上がりになるのか楽しみです。

何らかの漫画原作を実写化したときに登場しそうな、キャラの立った人物になっています。「地元愛」がどこにあるのかは正直分かりませんが、もしかしたら卒業した高校指定のジャージを着ているのかもしれません。
次は、「サイバーCityのサイバーラーメン屋で、サイバーラーメンを食べるサイバー女子」というテーマで生成してみます。

設定がぶっ飛びすぎると、どうしてもイラストっぽくなってしまうようです。リアルなデータが足りないのかもしれません。
そこで、少し設定をマイルドにして、再トライしてみます。

照明の雰囲気やホログラムのディスプレイなどで、サイバーシティの雰囲気を演出しています。
おそらく、この眼鏡もデジタルデバイスで、ラーメンに含まれる成分やカロリーを自動的に計算し、脳に直接電気信号を送っているはずです。
ChatGPTが考える最高にキュートなラーメン女子
次は、細かい指示をせずに、「あなたが思う、ラーメンを食べる最高にキュートな女性の写真を生成するプロンプトを作って」とだけ伝え、プロンプトを作成してもらいました。

いや、クオリティが高い。背景もしっかりぼかされていて、変な文字もない。提灯を入れることで雰囲気が出ているし、チャーシューもしっかり2枚のっている。さすがです。
やはり、照明の影響は大きいですね。これまでの画像は「さびれた中華料理屋」という設定だったので、蛍光灯の薄暗い雰囲気でしたが、今回の画像は一気に明るくなりました。照明やピント調整の指示が、クオリティを高めるためにかなり重要だと思われます。
次も、ChatGPTに指示なしで作らせたもの。「別の切り口で」とだけ伝えてみました。

もう、まるで東京カレンダーの表紙のような雰囲気です。銀座でしょうか。黒を基調とした内装に、間接照明が映えていて、まさにモダンな大人の隠れ家的ラーメン屋といった感じです。
特に細かい要望がない場合は、下手に指示を出すより、ChatGPTに自由に作らせたほうがいいのかもしれません。そのあとで修正したい箇所だけ微調整する、という流れが良さそうです。

そして、これは「傘を差しながらラーメンをすする」という謎の状況。カバンも肩にかけたままなので、相当器用な人ですね。
それにしても、ChatGPTの想像力がすごい。普通、傘を差しながらラーメンを食べさせようとは思わないものですが、それを自然に表現してくるのが面白いところです。

ChatGPTに「さっきから髪型が同じだ」と指摘したら、一気にバリエーションを変えてきました。髪型の変化だけでなく、細かいディテールにも変化が加えられています。メイクを調整したり、アクセサリーを使うと印象が全然変わりますね。調味料と一緒に招き猫が置いてあるのがいい感じです。

ChatGPTが少し暴走し始めたのか、うまく生成されないプロンプトが増えてきたので、「シンプルにして」と指示を出しました。その結果、ここへ来ての普通のラーメン女子。結果これまでで一番リアルかもしれません。
感想&生成した画像のまとめ
ということで、さすがに飽きてきたので、このあたりで終了します。
画像生成は、趣味として十分楽しめるほどの魅力があります。まだ試したことがない人は、ぜひ一度やってみてください。思わぬハイクオリティな画像が生まれたり、意図とはまったく違う面白い画像が出てきたりと、予想外の楽しさがあります。今のところ無料ですし。
最後に、記事で紹介した画像と、生成したものの記事中で使用しなかった画像をまとめておきます。
Comment