KI-Anwendungen können die faszinierendsten Ergebnisse erzeugen, auch wenn sie nicht wirklich auf menschliche Art denken und damit keine Kreativität im eigentlichen Sinne besitzen. Wie also kann es sein, dass die Ergebnisse uns neu und ungesehen, aber trotzdem passend erscheinen? Das zeigen wir euch in diesem Artikel.
Das Erzeugen von Bildern über eine KI basiert auf drei grundlegenden Schritten, die erst in ihrem Zusammenwirken dafür sorgen, dass ihr passende Ergebnisse bekommt:
Das Training
Wie bei jeder KI ist das Training die Grundvoraussetzung für gute Ergebnisse. Je mehr Bilder (mit der korrekten Beschreibung) die KI gelernt hat, desto besser sind die Ergebnisse. Dabei ist auch wichtig zu beachten, dass nachvollziehbar ist, in welchem geographischen und kulturellen Umfeld das Bild eingesetzt werden soll: Was für uns als Deutsche genau richtig ist, kann für den Betrachter aus einem anderen Land komplett ungewohnt und unpassend erscheinen.
Es ist also wichtig, dass die Trainingsdaten entweder viele Regionen abdecken oder aber bei der Erzeugung eines Bildes die Region des Anfragenden zu berücksichtigen und die Ergebnisse entsprechend anzupassen.
Je mehr Trainingsdaten die KI zur Verfügung hatte, desto genauer ist das Ergebnis.
Die richtigen Prompts
Während das Zusammensetzen von Informationen aus dem trainierten Sprachmodell bei einem ChatBot noch relativ einfach erscheint, bestehen bei Bildern doch ein wenig mehr Herausforderungen: Ein Bild ist nicht so nüchtern wie ein Text, es hat viele weitere Dimensionen, beispielsweise
- die Anordnung von Motiv und Hintergrundobjekten
- die Farbgebung
- der Lichteinfall
- der Stil (Foto, Zeichnung, Karikatur, Gemälde…).
Auch wenn KI-Bilder erzeugt werden, sollen sie ja möglichst realistisch aussehen und nicht auf den ersten Blick als KI-generiert zu erkennen sein. Dazu werden durch mathematische Modelle und künstliche neuronale Netze (also quasi dem Versuch, das menschliche Gehirn zu simulieren) neue Bilddaten erzeugt. Erst kommt das Training der KI, dann könnt ihr der KI mit einem Sprachbefehl, dem von ChatBots bekannten Prompt, beschreiben, wie das Bild aussehen soll. In Alltagssprache, so, wie ihr es einem Maler, der euch ein Bild erstellen soll, beschreiben würdet. Allerdings hat der von euch beauftragte Maler dann ein schier unendliches Detailwissen von Bildern der verschiedensten Genres, Inhalte und Stile. Neugierig geworden? Hier findet ihr dazu mehr.
Schrittweise Verfeinerung: Diffusion
Die KI generiert in einem ersten Schritt aus diesen Informationen ein zufällige „Grundbild“ als Basis. Das erkennt ihr bei ChatGPT beispielsweise daran, dass nach der ersten Analyse des Prompts erst ein unscharfes Bild angezeigt wird.
Dieses Bild wird dann mit zunehmender Rechenzeit weiter verfeinert und mit Inhalten bestückt, die ihr entweder im Prompt angefordert habt oder die aus dem Training als „in dieses Bild gehörig“ identifiziert sind. Dieses Bild wir dann noch einmal verfeinert, bis ihr schließlich das finale Ergebnis angezeigt bekommt. Das Verfahren nennt sich Diffusion und sorgt dafür, dass
- die Erstellung des Bildes schneller geht, weil es schrittweise in kleinen, handhabbaren Häppchen aufgebaut wird
- erkannte Fehler der KI im Prozess durch sie selbst leichter zu korrigieren sind, weil immer nur kleine Bereiche klarer dargestellt werden werden.
Wie funktioniert das? Einmal mehr durch Training:
- Die KI nimmt sich im Training Bilder und versieht sie nach und nach mit immer mehr Rauschen. Dieses Rauschen kennt ihr beispielsweise von mit einer Kamera mit zu wenig Licht aufgenommenen Bildern. Bei diesen versucht die Kamera, fehlende Lichtinformationen automatisch aufzufüllen. Das führt zu Blockungen und kleinen bunten Punkten, dem so genannten Farbrauschen.
- Je mehr Rauschen hinzugefügt wird, desto diffuser wird das Bild, bis es am Ende nur noch aus Pixelbrei übrig bleibt.
- Durch diesen Effekt kann die KI bei der Bilderzeugung umgekehrt benutzt werden: Die KI startet mit einem zufällig diffusen Bild und formt aus einzelnen Bereichen durch Entrauschen klarere Bereiche.
- Aus dem Training steuert die KI dann die Detaillierung/das Entrauschen so, dass Bereiche die im Prompt geforderten Objekte enthalten. Wie das geht, hat sie im Training ja gelernt.