KI kann jetzt auch Videos: OpenAI Sora

von Jörg Schieb | 23.02.2024 | KI

OpenAI Sora: KI kann jetzt auch Videos erzeugen

OpenAI, der Anbieter hinter ChatGPT, hat nun ein KI-Modell am Start, das Videos erzeugen kann: Sora erzeugt auf Knopfdruck Videos von bis zu 60 Sekunden Länge – in erstaunlich guter Qualität.

Was KI heute nichts alles kann: Fragen beantworten, Texte erstellen, Fotos und Bilder generieren, Musik erzeugen oder mit fremden Stimmen sprechen – und jetzt scheint der letzte große Schritt getan. Videos. OpenAI, das Unternehmen hinter ChatGPT, hat eine KI vorgestellt, die sich Sora nennt und Videos aus dem Nichts erzeugt. Man sagt der KI einfach, was man sehen möchte – und es erscheint. In der Branche wird das als Durchbruch gewertet.

Erster Eindruck bei Sora: Wow!

Mein erster Eindruck ist – einfach wow! Die KI erzeugt bis zu 60 Sekunden lange Videosequenzen. Wirklich aus dem Nichts. Wie bei ChatGPT kann man der KI sagen, was man sehen möchte. Zum Beispiel: Ein menschliches Auge, braun, das von links nach rechts schaut, super-closeup. Fertig. Oder: Eine junge Frau, stylish gekleidet, geht durch eine japanische Innenstadt bei leichtem Regen. Fertig. Und in den Pfützen am Boden spiegelt sich sogar die Leuchtreklame. Auf Wunsch gibt es auch Bilder vom ersten Astronauten auf dem Mars – und das ist einer Bildqualität, die einen umhaut.

Vor einem Jahr sahen solche KI-erzeugten Bilder aus wie aneinandergereihte Kritzeleien eines Kleinkindes. Heute plötzlich wie Hollywood. Ob super-realistisch oder Fantasy oder Anime/Manga – alles kein Problem.

Sora erzeugt aus dem Nichts erstaunlich hochwertige Videos

Sora befindet sich noch im Betastatus

Aber wie schnell geht denn so eine VideoErstellung?

Diese Frage kann ich leider noch nicht beantworten, denn noch ist Sora nicht für alle verfügbar. Im Augenblick nur für einen kleinen Kreis von Betatestern, meist Künstler, Video-Profis und KI-Experten. OpenAI hat aber sehr viele Beispiele präsentiert. Übrigens auch eine Reihe von Beispielen, die Fehler enthalten, Zum Beispiel ein Mann auf einem Laufband, der in die falsche Richtung läuft. Welche Bewegungen natürlich sind, das muss eine KI erst lernen. Auch gibt es hier und da Schwierigkeiten mit den Händen, das war bei bild-generierenden KIs auch anfangs eine Schwierigkeit.

Sora steht in Konkurrenz zu Google Lumiere

Aber ist OpenAI der erste und einzige Anbieter solcher KI-Modelle, die Videos erzeugen können?

Keineswegs, es gibt Konkurrenz. Auch Google tüftelt schon länger an Video-erzeugender KI, die sich „Lumière“ nennt, nach den Brüdern, die den Film und das Kino erfunden haben. Technisch verfolgt Lumiere einen völlig anderen Ansatz als OpenAI. Während Sora ein Bild nach dem anderen erzeugt, generiert Lumiere alle Bilder gleichzeitig, was natürlichere Bewegungen ergeben soll. Auch hier sind die ersten präsentierten Beispiele sehr beeindruckend.

Anders als Sora kann Lumiere aber auch Bilder verändern: Man kann zum Beispiel Figuren austauschen, Tänzerin gegen Braunbär. Das wird ein spannender Wettkampf. So beeindruckend manche Videosequenzen sind, die zu sehen ist: Perfektion wird noch nicht geboten. Da schreitet eine Frau zwei Mal mit dem linken Bein, ein Glas zerbricht nicht richtig. Es ist aber eben auch sehr komplex.

Sora kann Videos erstellen, die realistisch aussehen – oder auch Animationen

Sora: Gebrauch und Missbrauch

Wahrscheinlich denkst Du jetzt: Das klingt faszinierend und erschreckend zugleich. Was kommt da auf uns zu?

Mir geht es genauso. Es wird jetzt die letzte Lücke geschlossen. Schon bald können KIs alles, Texte, Bilder, Fotos, Audios und Videos. Und sie alle werden rasant schneller und besser. Sora ist toll, wenn man ein kleines Video für ein Posting braucht, oder sagen wir: Jemand hält einen Vortrag über Paris – schwupps, kann man einen Drohnenflug über die Seine zu Notre Dame einbauen.

Es gibt wahnsinnig viele Möglichkeiten. Aber selbstverständlich wie immer auch Risiken und Herausforderungen: Werden Filmemacher jetzt womöglich arbeitslos, was ist mit den Urheberrechten, lassen sich damit auch Deep Fakes erzeugen? Natürlich wird das so sein. Wir brauchen eine Lösung für diese Fragen: Die Menschen müssen erkennen können, was von KI kommt – es muss aber auch eine Möglichkeit geben, echte Aufnahmen eindeutig zu identifizieren und zu überprüfen.