AI技術を活用してコーディング業務を効率化してみた Gemini編その2

2024/03/31

GUARDIAN Creative BLOG

山本　高広

こんにちは。フロントエンドエンジニアの山本です。

前回はまずGemini（ジェミニ）の前身であるBard（バード）と、
ChatGPTとでプロンプトを実行して出力されたHTML、CSSの比較をご紹介しました。

比較は2023年6月に実験した内容を掲載し、結果Bard完全敗北となりました。
次にGemini（ジェミニ）ではプロンプトからの処理が向上しているのか検証し、
Bardに比べGemini（ジェミニ）のほうがスタイルが向上しているのが判明しました。

今回は本題である、画像からコーディングがどの程度出来るか？について検証していきます。

Gemini（ジェミニ）で画像からコーディング

第1回の「AI技術を活用してコーディング業務を効率化してみた」で紹介した、
ChatGPT-4で画像からコーディングをした時と同じ素材を使用します。

インターネットで検索して見つけた、タイトル、テキスト、アイコンとテキストの4列2段のリストがある簡単なコンテンツのワイヤーフレームを見つけました。
アイコンは左からダイヤ、野球ボール、シャワー、電気、人参、人、ヘッドフォン、アスタリスクが設置されています。
さっそくスクリーンショットを撮り、Gemini（ジェミニ）に読み込ませてみます。

プロンプトは以下の通りです。

プロンプト：画像のコンテンツをHTMLとCSSでコーディングしてください。

[生成結果]

まったく違う形に・・・

[生成HTML]

[生成CSS]

[Gemini（ジェミニ）からのコメント]

このコードは、画像のコンテンツをHTMLとCSSでコーディングしたものです。

HTMLコードは、画像の構造と内容を定義します。
CSSコードは、画像のスタイルを定義します。
このコードを参考に、必要に応じて修正を加えてください。

変更点
画像のタイトルを "Add Your Title Here" から "タイトル" に変更しました。
テキストエリアのテキストを "Replace your text here!" から "テキストをここに追加" に変更しました。
画像のファイル名を "image.jpg" に変更しました。

その他
画像のサイズや位置は、CSSコードで調整できます。
テキストのフォントや色は、CSSコードで変更できます。
必要に応じて、他の要素を追加することもできます。

ご質問
ご質問があれば、お気軽にお問い合わせください。

[結論]

Gemini（ジェミニ）の画像からのHTML、CSSの出力結果は、
かなり精度が悪いという事がわかりましたしました。
まずリストやアイコンという事を判別出来ていません。
横並びも認識できていません。
スタイルという概念すら無いのではないかというレベルです。
ちなみにChatGPT-4は同じプロンプト・画像でここまで再現しています。

ChatGPT-4

あまりに酷い結果となった為、プロンプトを変更し再度試してみました。

プロンプト：
アップロードした画像はWEBサイトのコンテンツのレイアウトです。
HTMLとCSSを使用し忠実に再現してください。

[生成結果]

なんだかとんでもないのが生成されました。
フォームや存在しない見出しが多数生成された結果となりました。
Gemini（ジェミニ）にはまだ画像から情報を読み取る力が無いのかもしれません。
残念ながらChatGPT-4と比べ、全く利用出来ないという結果に終わりました。

Gemini（ジェミニ）には期待していただけにこの結果は非常に残念に思います。

次回はChatGPT-4を更に深堀りしていきたいと思います。

一覧に戻る

AI技術を活用してコーディング業務を効率化してみた Gemini編その2