Hollywood-Star Scarlett Johanssen beklagt sich: OpenAIs ChatGPT 4o würde in der App eine Stimme namens „Sky“ verwenden, die ihrer Stimme extrem ähnelt. Ein Streit ist entbrannt.
Seit einigen Monaten reden wir gefühlt ständig über Künstliche Intelligenz. Das war keineswegs immer so. Vor zehn Jahren war KI kaum ein Thema. Außer in dem Kinofilm „Her“ von Spike Jonze. Da verliebt sich ein Mann in die Stimme der virtuellen KI-Assistentin, die alles für ihn erledigt.
Gesprochen wurde diese Rolle damals von Scarlett Johanssen. Sie war nicht zu sehen, nur zu hören. Und nun plötzlich kommt die Firma OpenAI, die hinter ChatGPT, und lässt den Chatbot mit einer Stimme sprechen, die doch verdächtig nach der der Schauspielerin zu klingen scheint.
Und genau deswegen ist Streit entbrannt.
ChatGPT spricht mit mehreren Stimmen
Vor einer Woche hat OpenAI die neue Version seines Chatbots ChatGPT 4o vorgestellt – wir haben hier darüber gesprochen. Und mit diesem Chatbot kann man sprechen: Ich frage etwas, der Chatbot antwortet mit einer künstlichen Stimme.
Ich kann aus mehreren Stimmen auswählen. Eine nennt sich „Sky“ – und die klinge doch sehr verdächtig nach der von Scarlett Johanssen, meint die Schauspielerin selbst und verdächtigt das Unternehmen, ihre Stimme geklaut zu haben. Der Fall wird untersucht. OpenAI hat aktuell die Stimme „Sky“ aus dem Programm genommen.
Stimmen klonen: Für KI heute kein Problem
Aber könnte man denn theoretisch die Stimme eines Schauspielers wie Scarlett Johansson klonen und welchen Aufwand müsste man da betreiben?
Es ist heute ohne weiteres möglich, die Stimmen von Schauspielern zu klonen – von den meisten liegt reichlich und damit mehr als genug Audio-Material zur Verfügung, um eine Stimm-KI zu trainieren. Für eine durchschnittliche bis gute Klone-Stimme reichen 30 Sekunden bis zwei Minuten; schon kann man eine Stimme recht gut klonen. Um eine Stimme exzellent zu klonen, braucht es etwas mehr, aber fünf bis zehn Minuten reichen aus, um eine wirklich exzellente Stimme zu klonen.
Hier werden meist ganz bestimmte Sätze eingesprochen, damit auch schwierigere Wörter und bestimmte Herausforderungen wie Aussprache, Akzent, Sprechtempo optimal eingefangen und „gelernt“ werden können.
Dann ist es möglich, eine solche Stimme so ziemlich alles sagen zu lassen – und mittlerweile sind auch Emotionen möglich. Im Englischen sind KI-erzeugte Stimmen für Podcasts zum Beispiel auf einem Niveau, dass man es nicht merkt, dass sie nicht echt ist.
Fehler oder Versehen oder Zufall?
Könnte es theoretisch sein, dass die Stimme von Johansson hier einfach kopiert wurde?
Ich würde aus zwei Gründen nein sagen. Zum einen ist die Stimme derart klar und vielfältig, dass das Training mit reinen Sprechproben meiner Ansicht nach nicht ausreichen würde. Da bräuchte es ein gezieltes Training, um diese Qualität hinzubekommen.
Der zweite Grund: Warum sollte sich ein Unternehmen wie OpenAI völlig unnötig in einen derart erheblichen Rechtsstreit stürzen und Schäden für die Reputation in Kauf nehmen? Das erscheint mir nicht plausibel.
OpenAI hat Scarlett Johanssen vor einigen Monaten gefragt, ob sie ihre Stimme hergibt. Sie hat nein gesagt. Vermutlich haben sie eine Sprecherin ausgewählt zum Training, die nur sehr ähnlich klingt. Alles andere würde mich schon sehr wundern.
Stimmen lassen sich perfekt klonen
Aber das Problem bleibt: KI wird immer leistungsfähiger – wie geht das weiter mit dem Klonen von Stimmen?
Das stimmt: Die Fortschritte sind enorm. Vor zwei Jahren hat man definitiv gehört, wenn eine Stimme mit KI erzeugt wurde. Heute ist das teilweise nicht mehr so. In zwei Jahren werden wir es auf keinen Fall mehr bemerken.
Dann werden wir mit Chatbots im Support sprechen, die besser unsere Sprache sprechen als echte Supporter – und immer freundlich bleiben, egal um welche Uhrzeit wir anrufen. Es werden zweifellos viele Jobs wegfallen, im Support, aber auch Stadionsprecher, Sprecher im Bahnhof oder am Flughafen.
Was prominente Stimmen betrifft: Der „AI Act“ der EU sieht Transparenz vor. Ein Unternehmen müsste also offenlegen, wie eine KI trainiert wurde, im Zweifel auch mit welcher Stimme.
Eine Stimme – zudem ungefragt – für bestimmte Zwecke zu klonen, ist zweifellos problematisch. Es scheint noch nicht glasklar geregelt, ob das Klonen einer Stimme, etwa zu Unterhaltungszwecken, erlaubt ist oder nicht. Zur Täuschung darf sie nicht eingesetzt werden. Ein solcher prominenter Fall ist gut geeignet, darüber zu sprechen und Regeln aufzustellen.
„Wir übernehmen das Googeln für Sie“, so lautet das Motto im Google-Konzern. Wir werden künftig immer häufiger mit Chatbots nach Antworten suchen – und sogar mit ihnen sprechen.
Google hat auf seiner Entwicklerkonferenz I/O gleich diverse KI-Projekte präsentiert, die unseren Alltag bereichern und – wenn es nach Google geht – auch einfacher machen sollen.
Universelle Helfer für alle Lebenslagen könnte man sagen.
Einen Tag vorher wiederum hat OpenAI, die Firma hinter dem bestens bekannten Chatbot ChatGPT, eine neue Version von ChatGPT gezeigt, die wie aus der Zukunft wirkt und nicht nur sprechen, sondern auch singen oder als Dolmetscher fungieren kann.
Es wird immer deutlicher: Die Art und Weise, wie wir uns aufschlauen und Herausforderungen des Alltags meistern werden, verändert sich rasant – aber auch die Art und Weise, wie im Netz Geld verdient wird.
ChatGPT 4o: Optimiert und schneller
Den ersten Aufschlag hat diese Woche OpenAI gemacht. Das Unternehmen hat eine Weiterentwicklung von ChatGPT präsentiert, die sie „Spring Update“ nennt. Also „Frühlings-Update“.
Die neue Version heißt „ChatGPT 4o“. Das „o“ steht für „optimiert“. In der Tat scheint die neue Version deutlich, deutlich schneller zu sein. Die Antworten kommen nahezu sofort.
Das KI-Modell ist aber auch effizienter, braucht weniger Rechenleistung und ist damit halb so teuer in der Nutzung (für Unternehmen zB) wie vorher. Es gibt weniger Fehler und bessere Lösungsvorschläge bei Problemen, etwa wenn man eine mathematische Formel lösen lassen will.
Die neue Version von ChatGPT hat auch die Sprechfähigkeit weiterentwickelt. Man kann mit dem Chatbot sprechen wie mit einem Menschen, in natürlicher Sprache. OpenAI hat es geschafft, dass es nicht einige Sekunden dauert, bevor eine Antwort kommt.
Die Antworten kommen sehr schnell – und die Aussprache ist sehr natürlich. Es ist sogar möglich, den Chatbot beim Sprechen zu unterbrechen, neue Aspekte zu erwähnen.
Es ist erstaunlich, wie schnell sich das entwickelt. ChatGPT kann auch als Dolmetscher fungieren. Wenn man de Chatbot sagt: „Du fungierst jetzt bitte als Dometscher.
Wenn ich etwas in Deutsch sage, übersetze das sofort ins Chinesische, und wenn Du etwas in Chinesisch hörst, übersetze es wieder in Deutsche.“ Und schon hat man einen funktionierenden Dolmetscher an der Hand.
Das alles steht nun nicht mehr nur zahlenden Plus-Nutzern, sondern auch in der kostenlosen Version zur Verfügung.
Google Gemini, Gemini, Gemini
Vieles davon klingt für einen Laien nach Science-Fiction. Vor allem, weil ChatGPT nicht der einzige Chatbot am Markt ist. Auch Google entwickelt mit Hochdruck an KIs und hat da diese Woche einiges vorgestellt.
Google steht erkennbar unter Druck, denn OpenAI treibt Google regelrecht vor sich her. Man wundert sich, denn Google hat in den letzten Jahren so viel in KI gesteckt und Technologien entwickelt, die das, was ChatGPT heute kann, überhaupt erst möglich gemacht hat. Vieles von dem, was Google einen Tag nach OpenAI gezeigt hat, sieht aus wie: „Wir können das auch!“
Die wichtigste KI von Google heißt „Gemini“, und die steckt künftig überall: In der Google-Suche, im Google Assistenten, in Youtube, in Google Mail. Wer mag, kann per KI nach einem Video suchen, in dem etwas Bestimmtes passiert oder erklärt wird zB.
Wer mag, kann mit Gemini sprechen. In vielen Sprachen und Stimmen. Das sieht alles so aus wie beim neuen ChatGPT. Die KI soll einem aber auch helfen können, etwa wenn man sich auf eine Prüfung oder ein
Bewerbungsgespräch vorbereiten will oder muss.
Das Wesen der Suche verändert sich radikal
Wenn wir immer mehr Chatbots benutzen, wie verändert das die Suche im Netz, wie verändert das Google?
Das ist eine wichtige Frage, die sich auch Google stellt. Die neue Devise bei Google lautet: „Wir erledigen das Googeln für Dich“. Damit ist gemeint, das wir, die Nutzer künftig weniger Links anklicken, um zu schauen, ob sich dort die begehrten Informationen verstecken. Das macht die KI.
Fragen können in natürlicher Sprache gestellt werden und auch komplexer werden. Man kann zukünftig fragen: „Welche Pilates-Studios es in Paderborn gibt, wie lange man vom Hotel dahin fährt und wann der nächste Termin für eine individuelle Sitzung frei ist.
Google sieht sich künftig mehr als Assistent. Und das alles muss keineswegs eingetippt werden, es reicht, es zu sagen – die Antworten kommen auch gesprochen, wenn möglich.
Aber nicht nur das. Man wird zukünftig auch einfach die Kamera im Handy aktivieren, auf etwas zeigen – etwa eine abgesprungene Fahrradkette – und fragen können: Was mache ich jetzt?
Und bekommt eine Schritt-für-Schritt-Anleitung. Es ist auch möglich, auf einem Bild etwas zu umkringeln und mehr Informationen dazu zu bekommen. Es geht eindeutig in Richtung Raumschiff Enterprise.
Webseiten und Blogs bekommen Probleme
Man könnte den Eindruck gewinnen, es wird nur noch über KI gesprochen. Da scheint sich mächtig etwas zu verändern.
Die Google-Suche ist bedroht. Google macht 224 Milliarden Dollar Umsatz im Jahr mit Werbung, ein großer Teil davon kommt aus der Google-Suche. Wenn die Leute nun immer öfter Chatbots befragen und nicht mehr bei Google suchen, verdient der Konzern wenige
Darum will der Konzern die Google-Suche nun auch mit diversen KI-Funktionen aufpeppen. Nutzer bekommen öfter Antworten direkt geliefert, weniger Linklisten.
Das bedeutet aber auch, dass potenziell weniger Menschen auf die Webseiten von Verlagen oder Blogs gehen, wenn sie die Antworten schon haben.
Es verändert das Wesen der Webs – und macht die Anbieter von allwissenden Chatbots zu mächtigen Konzernen. Die KIs entscheiden, welche Antworten kommen. Bislang konnten wir selbst entscheiden, welchen Link wir anklicken. In Zukunft nicht mehr.
Neu ist nur, dass wahrscheinlicher seltener Google gefragt wird, weil es eben auch andere leistungsfähige Frage-und-Antworten-Maschinen gibt wie ChatGPT, Perplexity, Llama, Claude und wie sie alle heißen.
OpenAI hat angekündigt, ein System zur Erkennung von mit KI erzeugten Inhalten zu bauen. Und die EU untersucht offiziell, ob Meta genug gegen Desinformation unternimmt.
Super-Wahljahr und Social Media
Dieses Jahr ist ein Super-Wahljahr. Es ist Europawahl, aber auch den USA finden Wahlen statt und in einiges Bundesländern bei uns. Da kommt es ganz besonders darauf an, dass die Bürger, die Menschen gut und vor allem richtig informiert werden.
Doch das Gegenteil ist der Fall. In den sozialen Netzwerken kursieren so viele Falschnachrichten wie noch nie. Viele mit der Absicht, Stimmung zu machen – vor allem gegen Europa. Die EU-Kommission hat deswegen jetzt ein Verfahren gegen den Meta-Konzern eröffnet.
Wegen der Inhalte. Und dann ist da auch noch KI, die es leichter macht denn je, Fake-News zu erstellen.
Ein schwieriger Fall.
EU-Kommission hat Verfahren gegen Meta-Konzern eröffnet
Die EU-Kommission hat in diesem Zusammenhang vor kurzem ein Verfahren gegen Meta eröffnet, den Mutterkonzern von Facebook und Instagram.
Die EU-Kommission will prüfen, ob sich das US-Unternehmen an europäische Regeln gehalten hat. Ob Meta die Verbreitung von irreführender Werbung im politischen Umfeld und vor allem Desinformationskampagnen in der EU ausreichend und schnell genug bekämpft.
Seitdem der Digital Services Act (DSA) ist, gibt es klare Regeln dafür – und auch rigide Strafen, wenn sich ein Unternehmen nicht an diese Regeln hält.
Weiterer Punkt: Es wird geprüft, ob es wirklich ausreichende und auch ausreichend einfache Möglichkeiten auf den Plattformen gibt, damit sich User über einzelne Beiträge oder wiederholt Fake und Desinformation verbreitende Konten beschweren können. Beides verstieße eindeutig gegen den Digital Services Act.
Eine wichtige Untersuchung, denn wir wissen alle, dass auf Facebook, Instagram und TikTok jede Menge Desinformation kursiert; vor allem solche, die den gesellschaftlichen Frieden stören und die Wahlen beeinflussen soll.
Was tun gegen Desinformation?
Der Meta-Konzern unternimmt bislang (zu) wenig. Doch aufgrund der zunehmend strengen Richtlinien in Europa kommt einiges in Bewegung. Metas Ingenieure zum Beispiel arbeiten daran, mit Hilfe von KI erstellte fotorealistische Aufnahmen – und nur hier besteht ein Risiko der Verwirrung oder Täuschung – mit geeigneten technischen Maßnahmen, unter anderem mit KI, automatisch zu erkennen und zu kennzeichnen.
Obwohl Deepfakes heute oft verblüffend echt aussehen, ist das oft gar nicht so schwierig, wie es sich anhört. Viele KI-Systeme, die Fotos erzeugen, markieren die erstellten Bilder (unsichtbar) schon jetzt automatisch.
Das machen KIs wie Midjourney, Dall-E3, Artbreeder, Dream und viele andere. Sie kennzeichnen die erzeugten Bilder sowohl durch entsprechende Angaben in den Metadaten der Bilder als auch durch unsichtbare Wasserzeichen.
OpenAI hat diese Maßnahme erst Mitte Februar eingeführt. Sie sollen ab Mai – also jetzt – in Facebook eine Kennzeichnung „Made with AI“ erhalten; später auch auf Instagram. Noch ist das nicht am Start.
Verantwortung der Konzerne
Die großen Anbieter von KI haben da durchaus Verantwortung.
Insbesondere OpenAI unternimmt einiges. OpenAI hat bereits vor Monaten eingeführt, dass mit Dall-E3 erstellte Bilder über eine Kennzeichnung verfügt. Bei Midjourney ist es genauso.
Aber das reicht natürlich nicht. Denn Menschen, die täuschen wollen, die entfernen solche Kennzeichnungen natürlich.
Deshalb arbeitet OpenAI aktuell an einem System, am Ende ebenfalls KI, das mit KI generierte Inhalte erkennen kann.
Eine Art KI-Detektor. Dieses System befindet sich allerdings noch in der Testphase. Aktuell können Wissenschaftler damit experimentieren. OpenAI will noch etwas Feedback, damit das System gut funktioniert.
Mit einem solchen Detektor könnten dann Social-Media-Netzwerke arbeiten, aber auch wir alle, wenn wir bei der Betrachtung eines Bilds oder Videos nicht sicher sind ob echt oder nicht.
Das lässt sich nur schwer in den Griff bekommen
Die automatische Kennzeichnung der durch KI erzeugten Inhalte ist ein sinnvoller Schritt; allerdings kein „Game Changer“.
Systeme, die mit KI generierte Inhalte schnell und zuverlässig erkenne können, ist eine gute Idee. Das endet am Ende aber vermutlich bei einem Katz-und-Maus-Spiel: Wer erkennt besser, wer versteckt besser.
Das eigentliche Problem ist die schiere Masse der gezielten Desinformation und Manipulation. Es gibt zu wenig Abwehr solcher Inhalte. Das nutzen vor allem russische Akteure aus.
Soziale Netzwerke sind heute die Öffentlichkeit. Es wäre früher undenkbar gewesen, solche Propaganda in die Zeitungen oder ins Radio zu bekommen. Doch über Social Media zu manipulieren ist kinderleicht und extrem günstig. Das muss aufhören.
Es geht also nicht, ohne den Menschen die nötigen Fähigkeiten zu vermitteln. Jeder Wähler muss wissen, dass manipuliert wird – und wie.
OpenAI hat eine wegweisende Entscheidung getroffen: Der populäre KI-Chatbot ChatGPT ist ab sofort ohne vorherige Registrierung nutzbar. Damit soll der Zugang zur fortschrittlichen Technologie für eine breite Öffentlichkeit erleichtert werden. Welche Änderungen und Schutzmaßnahmen das Unternehmen dabei einführt, erfahrt Ihr hier.
OpenAI, der Anbieter hinter ChatGPT, hat nun ein KI-Modell am Start, das Videos erzeugen kann: Sora erzeugt auf Knopfdruck Videos von bis zu 60 Sekunden Länge – in erstaunlich guter Qualität.
OpenAI hat mit ChatGPT einen großen Schritt gemacht: User können nicht nur eigene, individuelle ChatGPTs entwickeln, sondern diese jetzt auch im Store teilen und sogar verkaufen.
KI kann nicht nur analysieren, sondern auch generieren: ChatGPT erstellt Texte, Midjourney Bilder und ElevenLabs Audios. Selbst Videos können KI-Systeme heute erzeugen. Was ist noch wahr – und was kann man noch glauben?
Eine neue Kryptowährung, die aber mehr sein will: Das kontroverse Projekt soll helfen, Menschen im Internet eindeutig zu identifizieren und KI-Fälschungen zu verhindern. Voraussetzung ist ein persönlicher Iris-Scan.