Google、次世代AI「Gemini 2.5 Flash Image」を発表|画像解析と生成を融合
マルチモーダルAIの新たな進化
Googleは、新たな人工知能モデル「Gemini 2.5 Flash Image」を公開しました。この最新システムは、テキストによる指示で画像を生成するだけでなく、既存の画像を解析し、自然な会話ベースで編集・修正できることが特徴です。
詳細はGoogle AI Studioでも公開されています。
技術的進歩と強化された一貫性
従来のAI画像生成で課題となっていた「キャラクターの一貫性」を改善。Gemini 2.5 Flash Imageは、同一の被写体を異なる環境や状況に配置しても、外見や特徴を維持することが可能となりました。これにより、映像制作やマーケティング、ゲーム開発など幅広い分野での活用が期待されています。
また、本モデルはGoogleの大規模言語モデルの知識を活用しており、現実世界の理解を画像生成に反映させることができます。テキストとビジュアルを統合的に扱える点で、より高度なAIエージェントへの進化を示しています。
安全性と透明性への取り組み
Googleは安全対策として、自動コンテンツフィルタリングと、AI生成コンテンツを識別可能にするSynthIDによるデジタル透かしを実装しました。これにより、急速に拡大する合成メディアにおける信頼性の確保を目指しています。
価格と競争環境
Gemini 2.5 Flash Imageの利用料金は「100万トークンあたり30ドル(約4,400円)」に設定されており、企業利用を見据えた価格体系となっています。より詳しい技術情報はGoogle DeepMind公式ページから確認できます。
競合各社であるOpenAI、Adobe、MidjourneyなどもマルチモーダルAIに注力しており、生成AI市場の競争は一層激化しています。画像生成と編集の分野は今後のAI業界における主要な戦場になると見られています。





