Tipps für gute KI-Bilder: Das Prompt machts

von | 26.05.2025 | KI

Während das Prompten an sich schon eine Wissenschaft für sich ist, unterscheiden sich die Anforderungen an gute Prompts für die Bilderzeugung deutlich. Zwischen der nüchternen Anfrage von Informationen und der doch eher auf künstlerische Aspekte zielenden, blumigen Anfrage nach einem guten Bild bestehen einige Unterschiede. Und gerade wegen dieses künstlerischen und damit nicht eindeutig definierbaren Inhalts sind Prompts zur Bilderzeugung eine Herausforderung. Allerdings gibt es einige Tipps, die euch hier einiges an Zeit sparen können:

Was soll erstellt werden?

Zuallererst sollte die KI die Information bekommen, was denn eigentlich das Ergebnis der Bild-Anfrage sein soll.  Viele Anwender machen den Fehler, dass sie einfach nur die gewünschten Inhalte beschreiben, aber gar nicht erst sagen, in welcher Form das Ergebnis sein soll: „Ein Bild“ beispielsweise ist nicht eindeutig genug. Soll es eine Zeichnung sein? Ein fotorealistisches Bild (oder auch Foto)? Eine Karikatur? Gebt also als erstes im Prompt immer eine möglichst genaue Beschreibung des gewünschten Outputs an:

Erstelle eine fotorealistische Darstellung von …“ ist besser als „Erstelle ein Bild von“ oder das verbreitete „Ich brauche…“

Welche Details hat das Hauptobjekt?

„Erstelle eine fotorealistische Darstellung eines Mannes, der ein Buch liest“ lässt viele Informationen offen, die Ihr vielleicht im Kopf habt, der KI aber nicht mitliefert. Trägt er eine Brille? Ein Hemd oder einen Pullover? Soll er einen Bart haben? Kinn- oder Schnauzbart? Diese Informationen sind aber wichtig, um das Bild so zu erzeugen, wie ihr es geplant habt. Der Zahl/Menge der Details sind hier kaum Grenzen gesetzt.

„Erstelle eine fotorealistische Darstellung eines Mannes, der ein Buch liest. Es trägt eine randlose Brille und einen Schnauzbart. Sein Hemd ist klein kariert.“ ist deutlich detaillierter und erzeugt damit ein Bild, das deutlich näher an euren Vorstellungen ist.

Was ist das Umfeld des Hauptobjekts?

Man lässt sich leicht ablenken: Eigentlich geht es ja nur darum, ganz fokussiert ein Objekt zu erzeugen. Beispielsweise eine Person, einen Gegenstand, eine Sehenswürdigkeit, das, was man auch gerne als den „Eyecatcher“ bezeichnet. Den beschreiben viele Anwender recht ausführlich. Der Betrachter aber nimmt das Bild als Gesamtkomposition wahr, und zu der gehören auch so Dinge wie der Hintergrund, die Stimmung (die oft durch den Lichteinfall bestimmt wird), Gegenstände, die sich ebenfalls im Bild befinden, da zwar nur eine Nebenrolle spielen, aber vom Betrachter unbewusst wahrgenommen werden.  Ohne diese Informationen wirkt das Bild eher karg. Das kann durchaus ein beabsichtigter Effekt sein, wenn nicht, dann fügt passende Details ein: Hintergrund, Objekte, Lichteinfall, Umfeld, alles, was euch einfällt. Beispielsweise:

Erstelle eine fotorealistische Darstellung eines Mannes, der ein Buch liest. Es trägt eine randlose Brille und einen Schnauzbart. Sein Hemd ist klein kariert. Im Hintergrund befindet sich ein weißes Bücherregal, das halb gefüllt ist. Neben ihm steht ein Glas Rotwein, das halb voll ist. Der Raum ist hell und lichtdurchflutet.

image

Wie soll die Stimmung des Bildes sein?

Spätestens jetzt kommen wir von den Fakten zur eher diffusen Welt der Stimmungen eines Bild. Die hängt ganz stark davon ab, wofür ihr es nutzen wollt. Soll es einen positiven Eindruck vermitteln? Dann sollte es eher hell sein, lichtdurchflutet, die Farben fröhlich. Geht es um ein trauriges, düsteres Thema? Dann ist der Anspruch genau andersherum: Weniger Licht, dunkle Farben sind dann angemessener.

Ihr könnt hier entweder die Stimmung beschreiben oder einzelne Elemente explizit angeben. Wenn ihr die kürzere Variante wählt, dann hängt diese natürlich auch ein wenig davon ab, wie die KI eure Beschreibung versteht: „die Stimmung soll düster sein“ ist in eurer Vorstellung vielleicht etwas anderes als im virtuellen Kopf von ChatGPT!

Ihr solltet dabei auch beachten, dass manche von euch beschriebenen Elemente sich mit der Definition der Stimmung beißen können. Diese einzelnen Elemente werden dann gegebenenfalls ausgeblendet.

Wenn ihr das vorangegangene Prompt erweitert um „Die Stimmung ist düster und traurig“, dann ändert das komplette Bild seinen Charakter:

Das könnt ihr aber auch nuancierter ausdrücken: Wenn ihr statt „düster und traurig“ die Formulierung „eher düster“ wählt, dann ist der Gesamteindruck des Bildes deutlich weniger bedrückend. „Hell und lichtdurchflutet“ aus eurem Prompt passt dazu aber nicht und wird deshalb ignoriert.

image

Was soll eben NICHT im Bild sein?

Die vorangegangenen Tipps haben sich vor allem damit beschäftigt, was alles im Bild vorkommen soll. Die KIs interpretieren ihre Prompts ja mithilfe anderer Bilder. Dazu gehört auch, dass in manchen beschriebenen Situationen einfach Objekte oder Effekte als „normal“ für dieses Bild angesehen werden. Was für andere Anwender (oder die KI) normal ist, das muss aber für euch nicht gewünscht sein. Mit einem sogenannten negativen Prompt könnt ihr Dinge ausschließen. Ob es sich nun um Bildelemente („keine Autos“) handelt oder um technische Dinge („keine Spiegelungen in den Fenstern“), der Ausschluss von potenziellen Bildelementen schon im Prompt  ist eine wirksame Technik, um das Ergebnis zu beeinflussen.

Bei „Erstelle eine fotorealistische Darstellung einer Frau auf einer Kirmes. Der Himmel ist leicht verhangen, im Hintergrund befindet sich ein Riesenrad.“ Stellt die KI automatisch den Zusammenhang her, dass auf einer Kirmes auch Menschen im Hintergrund sind:

Schließt ihr das durch eine Ergänzung im Prompt aus („Erstelle eine fotorealistische Darstellung einer Frau auf einer Kirmes. Der Himmel ist leicht verhangen, im Hintergrund befindet sich ein Riesenrad. Es sind keine Menschen im Hintergrund.“), dann wirkt das Bild gleich ganz anders:

image

Neuer Prompt vs Ergänzung

Die Ergebnisse eines Prompts sind in vielen Fällen nicht vorhersagbar. Ändert ihr nur einen kleinen Teil des Prompts und schickt es erneut ab, dann kann sich das komplette Bild ändern. Wenn das erzeigte Bild im Großen und Ganzen schon gut ist, dann gebt nur die zu korrigierenden Elemente ein: Statt das Prompt oben komplett neu abzuschicken (und damit gegebenenfalls eine andere Person, andere Elemente etc. zu bekommen), schiebt etwa einfach „Entferne die Menschen im Hintergrund“ nach.  Damit bleibt das komplette Bild gleich, nur die Menschen sind verschwunden.

Der kleine Nachteil an diesem Vorgehen: Ihr habt nie ein komplettes Prompt, das ihr so irgendwann noch einmal abschicken könnt.