KI: Scarlett Johanssen beklagt, dass eine Stimme von ChatGPT ihrer ähnelt

von Jörg Schieb | 23.05.2024 | KI

Eine Szene (nachgestellt) aus dem Fim "Her"

Hollywood-Star Scarlett Johanssen beklagt sich: OpenAIs ChatGPT 4o würde in der App eine Stimme namens „Sky“ verwenden, die ihrer Stimme extrem ähnelt. Ein Streit ist entbrannt.

Seit einigen Monaten reden wir gefühlt ständig über Künstliche Intelligenz. Das war keineswegs immer so. Vor zehn Jahren war KI kaum ein Thema. Außer in dem Kinofilm „Her“ von Spike Jonze. Da verliebt sich ein Mann in die Stimme der virtuellen KI-Assistentin, die alles für ihn erledigt.

KI-Systeme können heute perfekt Stimmen immitieren: Scarlett Johanssen hat sich beschwert

Gesprochen wurde diese Rolle damals von Scarlett Johanssen. Sie war nicht zu sehen, nur zu hören. Und nun plötzlich kommt die Firma OpenAI, die hinter ChatGPT, und lässt den Chatbot mit einer Stimme sprechen, die doch verdächtig nach der der Schauspielerin zu klingen scheint.

Und genau deswegen ist Streit entbrannt.

ChatGPT spricht mit mehreren Stimmen

Vor einer Woche hat OpenAI die neue Version seines Chatbots ChatGPT 4o vorgestellt – wir haben hier darüber gesprochen. Und mit diesem Chatbot kann man sprechen: Ich frage etwas, der Chatbot antwortet mit einer künstlichen Stimme.

Ich kann aus mehreren Stimmen auswählen. Eine nennt sich „Sky“ – und die klinge doch sehr verdächtig nach der von Scarlett Johanssen, meint die Schauspielerin selbst und verdächtigt das Unternehmen, ihre Stimme geklaut zu haben. Der Fall wird untersucht. OpenAI hat aktuell die Stimme „Sky“ aus dem Programm genommen.

Stimmen klonen: Für KI heute kein Problem

Aber könnte man denn theoretisch die Stimme eines Schauspielers wie Scarlett Johansson klonen und welchen Aufwand müsste man da betreiben?

Es ist heute ohne weiteres möglich, die Stimmen von Schauspielern zu klonen – von den meisten liegt reichlich und damit mehr als genug Audio-Material zur Verfügung, um eine Stimm-KI zu trainieren. Für eine durchschnittliche bis gute Klone-Stimme reichen 30 Sekunden bis zwei Minuten; schon kann man eine Stimme recht gut klonen. Um eine Stimme exzellent zu klonen, braucht es etwas mehr, aber fünf bis zehn Minuten reichen aus, um eine wirklich exzellente Stimme zu klonen.

Hier werden meist ganz bestimmte Sätze eingesprochen, damit auch schwierigere Wörter und bestimmte Herausforderungen wie Aussprache, Akzent, Sprechtempo optimal eingefangen und „gelernt“ werden können.

Dann ist es möglich, eine solche Stimme so ziemlich alles sagen zu lassen – und mittlerweile sind auch Emotionen möglich. Im Englischen sind KI-erzeugte Stimmen für Podcasts zum Beispiel auf einem Niveau, dass man es nicht merkt, dass sie nicht echt ist.

Google und OpenAI kämpfen um die Pole Position im KI-Markt

Fehler oder Versehen oder Zufall?

Könnte es theoretisch sein, dass die Stimme von Johansson hier einfach kopiert wurde?

Ich würde aus zwei Gründen nein sagen. Zum einen ist die Stimme derart klar und vielfältig, dass das Training mit reinen Sprechproben meiner Ansicht nach nicht ausreichen würde. Da bräuchte es ein gezieltes Training, um diese Qualität hinzubekommen.

Der zweite Grund: Warum sollte sich ein Unternehmen wie OpenAI völlig unnötig in einen derart erheblichen Rechtsstreit stürzen und Schäden für die Reputation in Kauf nehmen? Das erscheint mir nicht plausibel.

OpenAI hat Scarlett Johanssen vor einigen Monaten gefragt, ob sie ihre Stimme hergibt. Sie hat nein gesagt. Vermutlich haben sie eine Sprecherin ausgewählt zum Training, die nur sehr ähnlich klingt. Alles andere würde mich schon sehr wundern.

KI kann jetzt prraktisch jede menschliche Stimme nachahmen - in Sekunden — KI kann jetzt prraktisch jede menschliche Stimme nachahmen – in Sekunden

Stimmen lassen sich perfekt klonen

Aber das Problem bleibt: KI wird immer leistungsfähiger – wie geht das weiter mit dem Klonen von Stimmen?

Das stimmt: Die Fortschritte sind enorm. Vor zwei Jahren hat man definitiv gehört, wenn eine Stimme mit KI erzeugt wurde. Heute ist das teilweise nicht mehr so. In zwei Jahren werden wir es auf keinen Fall mehr bemerken.

Dann werden wir mit Chatbots im Support sprechen, die besser unsere Sprache sprechen als echte Supporter – und immer freundlich bleiben, egal um welche Uhrzeit wir anrufen. Es werden zweifellos viele Jobs wegfallen, im Support, aber auch Stadionsprecher, Sprecher im Bahnhof oder am Flughafen.

Was prominente Stimmen betrifft: Der „AI Act“ der EU sieht Transparenz vor. Ein Unternehmen müsste also offenlegen, wie eine KI trainiert wurde, im Zweifel auch mit welcher Stimme.

Eine Stimme – zudem ungefragt – für bestimmte Zwecke zu klonen, ist zweifellos problematisch. Es scheint noch nicht glasklar geregelt, ob das Klonen einer Stimme, etwa zu Unterhaltungszwecken, erlaubt ist oder nicht. Zur Täuschung darf sie nicht eingesetzt werden. Ein solcher prominenter Fall ist gut geeignet, darüber zu sprechen und Regeln aufzustellen.