塩ラーメンを食べる女性をひたすら画像生成AIで作るだけの記事

Contents

画像生成AIでリアルな写真を作りたい
1. imageFXの特徴
2. imageFXの使い方
「ラーメンを食べる日本人女性」というテーマで遊んでみる
感想&生成した画像のまとめ

画像生成AIでリアルな写真を作りたい

「画像生成AI」と聞くと、アニメ風のイラストを想像する人も多いかもしれません。しかし個人的には、リアルな写真のような、実在しそうな画像を作るのが楽しいです。

このリアル志向の写真を作るのに適しているのが、ImageFX という生成アプリです。これは、Googleが開発した新しい画像生成AI「Imagen 3」を採用した高性能なサービス。

imageFXの特徴

ImageFXは、以下のような特徴を持つとされています。

クオリティが高い：細かい部分までリアルに表現できる
操作が簡単：特別な知識がなくても直感的に使える
無料で試せる（将来的に有料プランが導入される可能性はあり）

日本語にも対応しているという情報はあるのですが、私の場合日本語だと画像が生成されませんでした。今のところ英語が一番うまくいくようです。英語が分からなくても、翻訳アプリで英語に翻訳したり、ChatGPTで英語プロンプトを作成をすればOKです。

imageFXの使い方

例えば、「Landscape with blue sky and white clouds」(青い空と白い雲のある風景)と入力すると、その説明にぴったりの画像が生成されるのです。一度に最大4枚まで生成されます。しかも生成スピードが速く、約10秒で生成されます。

広がる緑の丘と澄み渡る青空に、白い雲がふわりと浮かぶ。開放感あふれる美しい自然の景色。

以前はすぐに一日の制限枚数を超えて使えなくなっていましたが、今は1日30回まで利用できるようです。制限に達した場合は、翌日まで待つしかありません。ただ、趣味で使う程度なら、よほど頻繁に利用しない限り制限に達することはなさそうです。

また、過去に生成した画像は「マイライブラリ」からいつでも閲覧・ダウンロードが可能です。検索機能もあり便利ですが、プロンプトを忘れてしまったり、スクロールに時間がかかったりすることもあるため、過去の画像にアクセスしづらい場合があります。気に入った画像は、すぐにダウンロードしておくのがおすすめです。

「ラーメンを食べる日本人女性」というテーマで遊んでみる

風景の写真や、今まで見たことのない荒唐無稽な画像を作るのも面白いですが、人物の画像を生成するというのも楽しいです。

今回は「ラーメンを食べる日本人女性」をテーマにして、理想的な画像を作る過程をゆるく書いてみます。特に深い内容ではないので、気軽に読んでもらえたら嬉しいです。

最初に生成された画像

夜の街を背景に、パーカーを着た黒髪の女性がラーメンを食べているアニメ風のイラスト。リアルなラーメンと柔らかいタッチのキャラクターが特徴的。

2杯食べようとしています。具から食べる派のようです。しかもリアルな写真のような画像を期待していましたが、イラストになってしましました。

これはありがちな失敗で、写真にしてほしい旨をプロンプトに含ませることを忘れてしまうパターンです。次は「35mm film」というワードを追加してみましょう。

灯りが点る夜の街の屋台で、フード付きパーカーを着た女性がラーメンをすすっている。温かいラーメンが寒い夜にぴったりの雰囲気を醸し出している。

かなりリアルな写真のような仕上がりになりました。冷やしラーメンでなければ、彼女の左手は火傷しているかもしれませんが、それ以外は違和感がありません。

強いて言えば、どんぶりに書かれた文字が何なのか分からないデザインですね。やはり、日本語や漢字の再現はまだ難しいようです。でも、この画像は間違いなく屋台で冷やしラーメンを食べる女性の姿です。

ただ、髪型や表情が微妙なので、そのあたりを少し調整してみましょう。

夜の街のネオンを背景に、金髪の女性がラーメンを食べながらカメラに向かって笑顔を見せる。温かいラーメンと楽しげな表情が印象的。

今回も引き続き冷やしラーメンになってしまいましたが、おいしそうな塩ラーメンです。特に煮卵の半熟加減が絶妙ですね。そして、女性が笑顔でカメラ目線になったことで、一気に親近感が増しました。

ただ、よく見ると右手の指が6本あるようにも見えます。AIにとっては指の形は複雑であり、指は5本という常識も通用しないようです。このあたりは「5本の指で箸を持つ」といったワードを追加したり、「手に役割を持たせる」などで対策できるらしいですが、まだ運の要素もあるようです。

場所を中華料理屋に変更

場所を変えてみました。これまでは屋台のような屋外でしたが、今回は一般的な中華料理屋に設定。照明は蛍光灯にして、陰影を強調し、少しさびれた雰囲気を演出してみました。

暖色の照明が灯るラーメン屋のカウンターで、金髪の女性がラーメンを食べながら楽しそうに笑っている。昭和の雰囲気が漂う店内。

いい感じに仕上がってきました。店内のメニューの文字は、日本語が読める人なら違和感があるかもしれませんが、そうでなければ特に気にならないでしょう。

細かく見ると、やはり箸を持つ右手の指の感じや、麺が箸に絡みすぎている点など、少し不自然な部分はあります。でも、ぱっと見はかなりいい写真になっています。相当おいしいラーメンなんでしょうか、店員と仲良しなのか、満面の笑みが印象的です。今回はちゃんとテーブルの上にどんぶりを置いて食べていますし、湯気が出ていて熱々のラーメンであることも伝わります。

それにしても、服のしわの感じや、カウンターの影が椅子に落ちる具合など、かなりリアルですね。変な文字のメニュー部分はトリミングしてしまえば、全体的に違和感のない仕上がりになりました。

暖色の照明が灯るラーメン屋のカウンターで、金髪の女性がラーメンを食べながら楽しそうに笑っている。昭和の雰囲気が漂う店内。トリミング版

ちょっとした演出を追加してみる

こうなってくると、次は細かい演出を入れたくなります。

ラーメンを食べる長髪の人あるあるとして、「髪を手で押さえながら食べる」動作をプロンプトに加えてみることにしました。これで、より自然なシーンになるはずです。

さらに、髪色も調整。より自然なブラウン系にして、全体の雰囲気をリアルに寄せていきます。

グレーのカーディガンを着た女性が、カウンター席でラーメンをすすっている。湯気が立ち上るラーメンと、落ち着いた店内の雰囲気が印象的。

丼とレンゲが一体化していることや、麺の量が異様に多いことを除けば、かなりリアルな画像になったのではないでしょうか。

特に、セーターの袖に毛玉がついているのが妙にリアルです。そして何より、髪の毛の質感がすごい。細かい部分までしっかり再現されています。

次は、「ラーメンを食べる前に髪の毛を結ぶしぐさ」を入れてみることにします。

黄色のパーカーを着た女性が、ラーメンを前に髪を結びながら微笑む。湯気が立ち込める昔ながらのラーメン屋で、温かいひとときを楽しんでいる。

いい感じになってきました。指が自然に隠れるので、完成度はかなり高いと思いきや…ラーメンがカウンターのギリギリに置かれていて、ちょっと不安定なバランス。さらに、よく見ると人物も椅子の端ギリギリに座っています。

それでも、「髪を後ろで束ねるしぐさ」には、時代を超えて不思議な求心力がありますね。自然な動作のはずなのに、なぜか目を引く魅力がある。

ゆるカワ系の要素を追加

指も隠れるし、この仕草は使えるぞ！ということで、このままの雰囲気で服装を変えてみます。ChatGPTに提案してもらった「ゆるカワ＆リラックス系」の要素を追加して、より親しみやすい雰囲気にしてみましょう。

ベージュのカーディガンを着た女性が、ラーメンを前に髪をまとめる準備をしながらカメラを見つめる。温かい雰囲気のラーメン屋のカウンター席。

今回もラーメンの位置と座る位置が際どいですが、そこまで気になるレベルではありません。

よく考えると、これらの画像はいったい誰目線なんだろう？という疑問はありますが、雑誌のグラビアだと思えば、その違和感も吹き飛びますね。

次は別の角度からの画像。服装も髪型もほぼ同じですが、どんな雰囲気になるのか試してみます。

ベージュのタートルネックを着た女性が、赤いカウンター席で髪を結びながら微笑む。壁に貼られたメニューや時計が昭和の雰囲気を感じさせる。

ここでふと疑問が湧いてきます。

この人物は同じ人に見えなくもないけれど、実際はどうなんだろう？もちろん、実在する人間ではないので、「同じ人間」と言うのはおかしいかもしれません。

でも、もしAIが生成した画像だと言わなければ、多くの人は「同じ人物」として認識するのではないでしょうか。

深緑のスウェットを着た女性が、赤いカウンター席で髪をまとめながらリラックスした笑顔を見せる。目の前には温かいラーメン。

服装を変えても、同じ人物に見えなくもないですね。

レンゲをカウンターに直置きしているのは個人的に少し気になりますが、全体的にはいい感じの写真です。

ちなみに、ChatGPTによると、顔の造形について特に指定しなければ、自動的に美形になるとのことです。

以下、ChatGPT談。

何も指定しない場合、一般的には中性的でバランスの取れた美形になりやすい。特に、AIが生成する画像では次のような傾向がある。

顔の形
卵型 (oval face) がデフォルトになりやすい。これは「最もバランスが良く、万人受けする」とされている形だから。丸顔や面長にするには明確に指示する必要がある

目の形
やや大きめでアーモンド型になりやすい。日本人女性の理想的な目の形としてAIが学習している可能性が高い。可愛らしさやクールさを強調したい場合は「丸い目」「切れ長の目」などを指定した方がいい

眉の形
ナチュラルな太さ＆アーチ型の眉になりやすい。これは「整った美形顔」に見せるためのバランスを取るデフォルトの形。クールな印象を出したい場合は「まっすぐな眉」を指定すると良い

鼻の形
細めでスッとした鼻になりやすい。欧米的な美の基準が影響しているため、比較的高く細い鼻になりやすい。もっとリアルな日本人らしさを出すなら「小さめの鼻」「少し丸みのある鼻」などを明記すると良い

唇の形
適度にふっくらしていて、形が整った唇になりやすい。AIのデフォルトは「ちょうどいい厚みのある、バランスの取れた唇」。もう少し可愛らしくするなら「小さめの唇」、セクシー寄りにするなら「厚めの唇」を指定すると良い

肌の質感・色
自然な明るめの肌になりやすい。欧米の「透き通るような白い肌」の影響を受けつつ、アジア系の肌色を少しブレンドした感じ。健康的な小麦色やオリーブ系の肌にしたい場合は明記が必要

また、技術的な制約もあるようです。

潜在空間（AIが学習した特徴の集合を圧縮して表現する空間）の次元数には限りがあるため、顔の微細な差異（例えば、目の角度が0.5mm違うといったレベル）を完全に再現するのは難しいとのこと。つまり、細かいディティールの違いを表現しにくいらしいです。

さらに、生成プロセスのノイズ除去アルゴリズムが「安全な平均値」を選びやすい傾向にあり、極端な顔立ちを避けることで、結果的に美形になりやすいようです。「平均的な顔ほど美しいと認識される」というのは有名な話です。

では、どの程度、自分の指定した顔の特徴を再現できるのでしょうか？

顔の造形を調整してみる

試しに、具体的な顔の特徴を指示してみます。丸顔・一重まぶた・低く小さな鼻・薄い唇・日焼けした肌という条件を追加して生成してみましょう。

レトロな雰囲気のラーメン屋で、ベージュのタートルネックとカーディガンを着た女性が髪をまとめる。木の壁と暖簾が昭和の雰囲気を醸し出す。

うーん、あまり指定した特徴がしっかり反映されている気はしませんが、先ほどの人物とは多少違う印象がありますね。

ベージュのカーディガンとデニムを着た女性が、カウンター席で髪をまとめながら微笑む。ラーメンの湯気が温かみのある雰囲気を作り出している。

そして、ここにきてラーメンの丼が初めて黒色になりました。黒い丼のほうがなんとなくおいしそうに見えるのはわたしだけでしょうか。もしかすると、「日に焼けた浅黒い肌」というワードの影響で、丼の色まで変わったのかもしれません。

髪型を変えてみる

丸顔で切れ長の目、小さめで丸い鼻。さらに、髪型も黒髪のショートボブに変更という指定で生成してみます。

フード付きのベージュパーカーを着たショートカットの女性が、ラーメンを前に片手で口元を押さえて驚いた表情を見せる。

明らかに、先ほどの人物とは違う人に見えますね。

顔の形は「丸顔」と指定したので、さっきよりもふっくらとした印象です。鼻の高さも、先ほどより少し低めに仕上がっています。

大きく見ると似たような顔なのかもしれませんが、髪色と髪型が違うだけで印象がかなり変わります。今回は、腹が減りすぎているのか、割り箸を折る勢いで箸をつかんでいます。そして指も、小指が途中で消えてしまっていたりして…やはりこのあたりの細かい部分はまだ難しいですね。

ちなみに、「左手のひらを左の頬につけて“美味しい！”というジェスチャーを」と指示したのですが、どうやってもそれが再現されず、謎のポーズになりました。これはこれでアリということで。

複数人にしたら全員同じ顔になる？

では、次に複数人を生成したらどうなるのでしょうか？全員同じ顔になってしまうのか、それともちゃんと個性が出るのか、試してみます。

温かみのある木のテーブルを囲み、4人の女性がラーメンを食べながら談笑している。和やかな雰囲気の中で食事を楽しむ様子。

いや、普通に個性がありますね。

複数人いて、全員が同じ顔というのは現実ではほとんどありえないので、人を増やせば自然と違う顔が生成されるのも当然といえば当然です。

「4人の女性がラーメンと餃子を囲んで楽しそうに食事をしている。和服を着た女性もおり、温かみのある店内でビールを飲みながら会話を楽しんでいる様子が伝わる。昭和レトロな雰囲気が漂うラーメン屋のテーブル席で、リラックスした雰囲気の中、笑顔があふれる。

こちらはネトフリ版「阿修羅のごとく」をイメージした四姉妹の図。あんま面白くなさそう。

双子の写真は生成可能？

では、双子が並んでいる写真は作れるのでしょうか？まったく同じ顔の二人を再現できるのか、試してみます。

昭和レトロな雰囲気のラーメン屋で、楽しそうに笑いながらラーメンを食べる二人の女性。美味しい食事と会話を楽しんでいる様子。

かなり似ていますね。

「双子です」と言われたら、確かにそう見えるレベルではないでしょうか。

白い息が立つ寒い日、ニットを着た二人の女性が湯気の立つラーメンを食べながら微笑み合っている。

こちらは正真正銘、双子と言えそうですね。

ただ、今回も丼を持ってしまう。どうしても「丼をテーブルの上に置く」という指示を忘れてしまいます。日本では「ラーメンのどんぶりを持たずに食べる」のが一般的ですが、AIはそのルールを理解していないのかもしれません。

服装を変えてみる

やはり、画像生成は面白いですね。しかも、この ImageFX は生成スピードがやたら速いので、ストレスが少ないのが嬉しいところです。

では、ここからは ChatGPTに様々な衣装を提案してもらい、引き続きラーメン女子を生成していきたいと思います。

まずは、Y2Kファッションから。Y2K（ワイツーケー）とは、「Year 2000」の略で、1990年代後半から2000年代初頭に流行したファッションやカルチャーのこと。最近、リバイバルされて再び人気が高まっています。とのこと。

水色のトップスとジーンズを着た女性が、赤いカウンター席で髪をまとめながらカメラを見つめる。目の前には湯気の立つラーメン。

なかなか珍しい雰囲気の画像になりました。明らかにSNS映えを意識した写真という感じですね。

次は「マイルドヤンキー」という設定で生成してみます。

ChatGPTによると、マイルドヤンキーのファッションは、「ちょいワル感＋実用性＋地元愛」が特徴とのこと。どんな仕上がりになるのか楽しみです。

ネイビーのジャージを着た女性が、ラーメンを前に眼鏡を少し持ち上げながらいたずらっぽく微笑む。カジュアルでリラックスした雰囲気。

何らかの漫画原作を実写化したときに登場しそうな、キャラの立った人物になっています。「地元愛」がどこにあるのかは正直分かりませんが、もしかしたら卒業した高校指定のジャージを着ているのかもしれません。

次は、「サイバーCityのサイバーラーメン屋で、サイバーラーメンを食べるサイバー女子」というテーマで生成してみます。

ネオンが輝く未来的な屋台で、ハイテクなゴーグルをつけた女性がラーメンを食べる。デジタルインターフェースが浮かび、SFの世界観が広がる。

設定がぶっ飛びすぎると、どうしてもイラストっぽくなってしまうようです。リアルなデータが足りないのかもしれません。

そこで、少し設定をマイルドにして、再トライしてみます。

近未来的な都市のネオンに囲まれ、デジタルインターフェースが浮かぶ中でラーメンを食べる女性。メカニカルな腕時計や透明なARグラスが特徴的。

照明の雰囲気やホログラムのディスプレイなどで、サイバーシティの雰囲気を演出しています。

おそらく、この眼鏡もデジタルデバイスで、ラーメンに含まれる成分やカロリーを自動的に計算し、脳に直接電気信号を送っているはずです。

ChatGPTが考える最高にキュートなラーメン女子

次は、細かい指示をせずに、「あなたが思う、ラーメンを食べる最高にキュートな女性の写真を生成するプロンプトを作って」とだけ伝え、プロンプトを作成してもらいました。

ピンクのセーターを着た眼鏡の女性が、ラーメンを持ち上げながら明るく微笑んでいる。店内の暖かい照明が心地よい雰囲気を演出。

いや、クオリティが高い。背景もしっかりぼかされていて、変な文字もない。提灯を入れることで雰囲気が出ているし、チャーシューもしっかり2枚のっている。さすがです。

やはり、照明の影響は大きいですね。これまでの画像は「さびれた中華料理屋」という設定だったので、蛍光灯の薄暗い雰囲気でしたが、今回の画像は一気に明るくなりました。照明やピント調整の指示が、クオリティを高めるためにかなり重要だと思われます。

次も、ChatGPTに指示なしで作らせたもの。「別の切り口で」とだけ伝えてみました。

黒のタートルネックとベージュのパンツを着た女性が、モダンな照明のラーメン屋で上品にラーメンを食べる。温かい湯気が漂う落ち着いた雰囲気。

もう、まるで東京カレンダーの表紙のような雰囲気です。銀座でしょうか。黒を基調とした内装に、間接照明が映えていて、まさにモダンな大人の隠れ家的ラーメン屋といった感じです。

特に細かい要望がない場合は、下手に指示を出すより、ChatGPTに自由に作らせたほうがいいのかもしれません。そのあとで修正したい箇所だけ微調整する、という流れが良さそうです。

透明な傘を持ちながら、屋台のカウンターでラーメンを食べる女性。雨に濡れた街のネオンが光り、温かい湯気が立ちのぼる。

そして、これは「傘を差しながらラーメンをすする」という謎の状況。カバンも肩にかけたままなので、相当器用な人ですね。

それにしても、ChatGPTの想像力がすごい。普通、傘を差しながらラーメンを食べさせようとは思わないものですが、それを自然に表現してくるのが面白いところです。

グリーンのニットとチェック柄のパンツを身につけた女性が、レトロなポスターや提灯が飾られたラーメン屋でラーメンを食べる。タトゥーやピアスが印象的。

ChatGPTに「さっきから髪型が同じだ」と指摘したら、一気にバリエーションを変えてきました。髪型の変化だけでなく、細かいディテールにも変化が加えられています。メイクを調整したり、アクセサリーを使うと印象が全然変わりますね。調味料と一緒に招き猫が置いてあるのがいい感じです。

ネイビーのパーカーを着た女性が、木のカウンターのラーメン屋で麺をすすっている。落ち着いた雰囲気の店内で、一杯のラーメンをじっくりと味わう。

ChatGPTが少し暴走し始めたのか、うまく生成されないプロンプトが増えてきたので、「シンプルにして」と指示を出しました。その結果、ここへ来ての普通のラーメン女子。結果これまでで一番リアルかもしれません。

感想&生成した画像のまとめ

ということで、さすがに飽きてきたので、このあたりで終了します。

画像生成は、趣味として十分楽しめるほどの魅力があります。まだ試したことがない人は、ぜひ一度やってみてください。思わぬハイクオリティな画像が生まれたり、意図とはまったく違う面白い画像が出てきたりと、予想外の楽しさがあります。今のところ無料ですし。

最後に、記事で紹介した画像と、生成したものの記事中で使用しなかった画像をまとめておきます。

黒いジャケットを着た女性が、赤いカウンターでラーメンを前に髪を結ぶ仕草をしている。壁には昭和の雰囲気を感じさせるメニューが貼られている。

暖かい雰囲気のラーメン屋で、黒髪の女性が嬉しそうに麺を持ち上げる。湯気が立ち、スープには煮卵や海苔が添えられている。

image_fx_ramen-japanese-woman22

image_fx_ramen-japanese-women01

image_fx_ramen-japanese-women02

image_fx_ramen-japanese-woman03

image_fx_ramen-japanese-woman04

image_fx_ramen-japanese-woman05

image_fx_ramen-japanese-woman06

image_fx_ramen-japanese-woman07

image_fx_ramen-japanese-woman08

image_fx_ramen-japanese-woman09

image_fx_ramen-japanese-woman10

image_fx_ramen-japanese-woman11

image_fx_ramen-japanese-woman12

image_fx_ramen-japanese-woman27

image_fx_ramen-japanese-woman28

image_fx_ramen-japanese-woman13

image_fx_ramen-japanese-woman14

image_fx_ramen-japanese-woman15

image_fx_ramen-japanese-woman16

image_fx_ramen-japanese-woman17

image_fx_ramen-japanese-woman18

image_fx_ramen-japanese-woman19

image_fx_ramen-japanese-woman20

image_fx_ramen-japanese-woman21

image_fx_ramen-japanese-woman24

image_fx_ramen-japanese-woman29

image_fx_ramen-japanese-woman26

image_fx_ramen-japanese-woman30

テーブルを囲み、4人の女性がラーメンを食べている。全員カメラ目線でほほ笑んでいる。

image_fx_ramen-japanese-woman25

image_fx_ramen-japanese-woman-twins01

image_fx_ramen-japanese-woman-twins02

image_fx_ramen-japanese-4woman-02

image_fx_ramen-japanese-4woman