Das Rennen um die beste Bild-KI ist mit einem Schlag wieder offen. OpenAI hat gestern ChatGPT Images 2.0 vorgestellt – das erste Bildmodell des Unternehmens, das „denkt“, bevor es zeichnet. Und zum ersten Mal seit Monaten muss Google mit Nano Banana Pro aufpassen.
Ich habe mir die Details in Ruhe angeschaut und beide Modelle gegeneinandergehalten. Spoiler: Das Ergebnis ist differenzierter, als die Überschriften es vermuten lassen.
Was ChatGPT Images 2.0 wirklich neu macht
Die wichtigste Neuerung versteckt sich hinter einem unscheinbaren Wort: Thinking. Zum ersten Mal kann ein Bildmodell von OpenAI vor dem Zeichnen nachdenken. Wenn Du in ChatGPT den „Thinking“- oder „Pro“-Modus aktivierst, nimmt sich das System Zeit, durchsucht bei Bedarf das Web, analysiert hochgeladene Referenzen und plant die Bildkomposition, bevor das erste Pixel entsteht.
Das klingt nach Marketing-Sprech, hat aber eine konkrete Folge: Du kannst aus einem einzigen Prompt bis zu acht zusammenhängende Bilder erzeugen lassen – mit konsistenten Figuren, gleichem Stil und logisch aufeinander aufbauenden Szenen. Storyboards, Comic-Seiten, Social-Media-Serien oder ganze Kinderbücher entstehen in einem Rutsch. Bisher musstest Du jedes Bild einzeln prompten und dann mühsam nachbearbeiten, damit die Figur auf Bild drei noch wie die auf Bild eins aussieht.
Der zweite große Fortschritt: Text im Bild. Bildmodelle sind lange daran gescheitert, auch nur einen einfachen Satz lesbar zu rendern. ChatGPT Images 2.0 macht hier einen spürbaren Sprung – und zwar ausdrücklich auch für nicht-lateinische Schriften. Japanisch, Koreanisch, Chinesisch, Hindi, Bengali: Sprachen, in denen Modelle bisher regelmäßig versagt haben. Das ist mehr als eine technische Fußnote. Wer international publiziert, konnte bisher keine KI-generierten Poster, Infografiken oder Magazin-Layouts für asiatische oder indische Märkte produzieren. Das ändert sich jetzt.
Dazu kommen solide, aber keine spektakulären Daten: Bis zu 2K-Auflösung, flexible Seitenverhältnisse von 3:1 bis 1:3, und ein aktualisierter Wissensstand bis Dezember 2025. Das Modell läuft in ChatGPT, in Codex und als gpt-image-2 über die API.

Warum Nano Banana Pro trotzdem die Messlatte bleibt
Jetzt wird’s interessant. Denn Googles Nano Banana Pro – intern als Gemini 3 Pro Image bekannt – ist seit November 2025 auf dem Markt und hat in vielen Disziplinen bis heute die Nase vorn.
Bei der Auflösung: Nano Banana Pro liefert bis zu 4K. OpenAI bleibt bei 2K. Wer professionell druckt oder für große Displays produziert, spürt diesen Unterschied sofort.
Bei den Referenzbildern: Google erlaubt bis zu 14 Eingabebilder pro Generierung. OpenAI hat hier deutlich weniger Spielraum. Für Designer, die einen kompletten Styleguide einspeisen wollen – Logos, Farben, Character-Turnarounds, Produktfotos – ist das ein entscheidender Vorteil. Nano Banana Pro kann einen ganzen Markenkosmos gleichzeitig verarbeiten.
Bei der Personen-Konsistenz: Google hält bis zu fünf verschiedene Personen über Generationen hinweg stabil. Das ist für Kampagnen, Charakter-Storytelling oder Unternehmensfotografie ein massiver Unterschied.
Bei der Studio-Kontrolle: Nano Banana Pro gibt Dir die Hand an Licht, Kamera, Tiefenschärfe, Color Grading und Fokuspunkt. Das ist kein Spielerei-Modus mehr – das ist Produktionswerkzeug auf dem Niveau von Bildbearbeitungs-Software.
Bei der Recherche: Beide Modelle können das Web durchsuchen. Google hat hier aber den natürlichen Vorteil, direkt auf den eigenen Suchindex zuzugreifen. Wenn Du ein aktuelles Wetterdiagramm, einen Börsenchart oder eine faktisch korrekte Infografik brauchst, ist die Grounding-Qualität bei Nano Banana Pro spürbar besser.
Wer also gewinnt?
Kurze Antwort: Kommt drauf an, was Du vorhast.
ChatGPT Images 2.0 ist stark, wenn Du mehrteilige Geschichten erzählen willst. Storyboards, Comic-Serien, Kampagnen mit wiederkehrenden Figuren, mehrsprachige Social-Posts – das sind seine Disziplinen. Der Thinking-Modus ist dabei mehr als ein Gimmick. Er verändert die Art, wie Du mit Bildmodellen arbeitest: weniger einzeln prompten, mehr im Dialog mit einem System, das eigene Entscheidungen trifft.
Nano Banana Pro ist die erste Wahl, wenn Präzision und Kontrolle zählen. Infografiken mit exakten Daten, Produktmockups auf Druckqualität, Markenassets mit striktem Styleguide, Personen, die über Kampagnen hinweg identisch aussehen müssen. Für jede professionelle Produktion, die nicht nur „gut aussehen“, sondern einem Briefing entsprechen muss, bleibt Google vorn.
Meine Einordnung: Das eigentliche Signal
Für mich ist die spannendste Botschaft nicht, welches Modell besser ist. Sondern, wie schnell sich das Feld entwickelt.
Noch vor einem Jahr haben Bildmodelle reihenweise an lesbarer Schrift gescheitert. Finger waren krumm, Augen schief, und Text auf einem Schild wurde zu einer Ansammlung fremdartiger Symbole. Heute streiten zwei der größten Tech-Konzerne der Welt darum, wer Magazine layouten, Manga-Sequenzen erzeugen und Infografiken mit gegrundetem Echtzeit-Wissen produzieren kann.
Das ist bemerkenswert. Und es hat Konsequenzen für viele Berufe – Grafikdesigner, Illustratoren, Marketing-Teams, Verlage. Nicht, weil diese Menschen morgen arbeitslos wären. Sondern weil sich die Art, wie visuelle Inhalte entstehen, grundlegend verschiebt. Wer heute noch glaubt, KI könne „keinen richtigen Text ins Bild setzen“, hat die letzten sechs Monate verschlafen.
Gleichzeitig lohnt sich der nüchterne Blick: Beide Modelle produzieren immer noch Fehler. OpenAI selbst räumt ein, dass sehr dichte Diagramme und komplexe physikalische Darstellungen weiterhin Schwächen haben. Google warnt vor Halluzinationen bei datengetriebenen Infografiken. Heißt: Verifizieren bleibt Pflicht. Wer sich auf KI-generierte Zahlen, Karten oder Statistiken verlässt, ohne gegenzuprüfen, wird irgendwann blamiert.
Was Du jetzt tun solltest
Mein Rat, wenn Du mit Bild-KI arbeitest: Beide Modelle testen. Mit Deinen echten Prompts, nicht mit den schönen Demo-Beispielen der Anbieter.
Die Unterschiede zeigen sich erst, wenn Du konkrete Aufgaben durchspielst. Ein Logo-Mockup. Eine Infografik mit Fachdaten. Eine Figur, die in fünf Szenen gleich aussehen soll. Ein mehrsprachiges Poster. Wer ernsthaft produziert, braucht Werkzeugvielfalt, keine Glaubensbekenntnisse.
Das eine Tool für alles gibt es nicht mehr. Und das ist, ehrlich gesagt, die beste Nachricht an diesem Tag.