Google は、最新の画像生成および編集モデルとなる Gemini 2.5 Flash Image を正式リリースした。開発者向けには API や Google AI Studio、Vertex AI を通じて利用が可能となっており、複数画像の合成や自然言語による編集、キャラクター一貫性保持といった高度な機能が強化されている。
新機能と改善点
Gemini 2.5 Flash Image では、複数の画像を融合して一枚のビジュアルを生成する マルチイメージ融合 が可能になった。加えて、異なるシーンで同一キャラクターを描写しても見た目を保つ キャラクター整合性 機能、自然言語プロンプトによる部分編集操作、Gemini の世界知識を活用した文脈に即した生成・編集がサポートされている。
本番環境対応版としてリリースされると同時に、10 種類のアスペクト比 がサポート対象に追加され、縦長・横長・正方形など多様なフォーマット出力が可能となった。また、画像のみを出力する指定が可能になった点も注目される。
利用形態とコスト
このモデルは Gemini API、Google AI Studio、Vertex AI を通じて提供されており、開発者やエンタープライズ用途で利用が進む見込みだ。価格は、1 枚あたり出力 1290 トークン相当で $0.039(米ドル)と設定されており、100 万出力トークンあたり $30 という料金体系も適用される。
さらに、モデル出力画像には SynthID デジタルウォーターマーク が埋め込まれ、生成された画像が AI によるものであることを識別可能にする仕組みも導入されている。