Stell dir vor, du hörst die Stimme deines Lieblingsstars – aber es ist nicht wirklich seine Stimme. KI macht’s möglich.
Künstliche Intelligenz revolutioniert die Art und Weise, wie wir Sprache wahrnehmen und erzeugen. Erfahre, wie KI menschliche Stimmen lernen und täuschend echt imitieren kann – inklusive Emotionen.
Von Sprachsynthese zu Stimmenimitation
Die Erzeugung künstlicher Sprache ist keine neue Erfindung. Seit Jahrzehnten gibt es Sprachsynthese-Systeme, die geschriebenen Text in gesprochene Sprache umwandeln. Diese Systeme basieren auf einer Datenbank aufgenommener Sprachfragmente, die zu Wörtern und Sätzen zusammengefügt werden. Das Ergebnis klingt oft roboterhaft und unnatürlich.
Doch mit dem Aufkommen von Deep Learning und neuronalen Netzen hat sich das Feld rasant weiterentwickelt. Moderne KI-Systeme sind in der Lage, nicht nur Sprache zu generieren, sondern auch den Klang einer bestimmten Person zu imitieren – mit verblüffender Genauigkeit.
Das Geheimnis liegt in den Daten
Um eine Stimme zu synthetisieren, braucht die KI vor allem eines: Daten, und zwar jede Menge davon. Je mehr Audiomaterial einer bestimmten Person zur Verfügung steht, desto besser kann die KI deren stimmliche Eigenheiten erfassen und nachahmen.
Das Training erfolgt meist mit neuronalen Netzen, insbesondere sogenannten „Generative Adversarial Networks“ (GANs). Dabei lernen zwei Netzwerke quasi im Wettstreit: Ein Generator-Netz erzeugt Audiodaten, die der Originalstimme möglichst ähnlich sein sollen. Ein Diskriminator-Netz versucht, die generierten Daten von echten zu unterscheiden. Durch viele Trainingsrunden verbessern sich beide Netzwerke immer weiter.
Emotionen erwecken die Stimme zum Leben
Eine menschliche Stimme transportiert weit mehr als nur den gesprochenen Text. Betonung, Tonfall, Sprechgeschwindigkeit – all das verleiht dem Gesagten eine emotionale Färbung. Und genau diese Nuancen machen eine synthetisierte Stimme erst wirklich überzeugend.
Moderne Stimmenmodelle sind in der Lage, solche Feinheiten zu erfassen und wiederzugeben. Dafür analysieren sie nicht nur die Audiodaten selbst, sondern auch den Kontext, in dem sie gesprochen wurden. Mithilfe von Sentiment-Analyse und Textverständnis kann die KI die passende emotionale Färbung auswählen und auf den generierten Text übertragen.
Ein Blick in die Zukunft
Die Stimmensynthese hat in den letzten Jahren enorme Fortschritte gemacht. Aktuelle Systeme wie WaveNet von Google oder Real-Time Voice Cloning von Baidu erzeugen Ergebnisse, die von echten Stimmen kaum noch zu unterscheiden sind.
Doch die Entwicklung geht weiter. Forscher arbeiten daran, die benötigte Datenmenge zu reduzieren und die Flexibilität der Modelle zu erhöhen. Bald könnten wir KI-Systeme haben, die nach dem Hören weniger Sätze eine Stimme imitieren und beliebige Texte darin vorlesen können – inklusive lebensechter Emotionen.
Die Möglichkeiten sind faszinierend: Virtuelle Assistenten mit der Stimme eines geliebten Menschen, personalisierte Hörbücher oder sogar „Gespräche“ mit historischen Persönlichkeiten. Zugleich wirft die Technologie auch ethische Fragen auf, etwa nach dem Schutz der Persönlichkeitsrechte. Eines ist sicher: Stimmensynthese wird in Zukunft eine immer größere Rolle spielen – und wir sollten sowohl die Chancen als auch die Herausforderungen im Blick behalten.
Hollywood-Star Scarlett Johanssen beklagt sich: OpenAIs ChatGPT 4o würde in der App eine Stimme namens „Sky“ verwenden, die ihrer Stimme extrem ähnelt. Ein Streit ist entbrannt.
Seit einigen Monaten reden wir gefühlt ständig über Künstliche Intelligenz. Das war keineswegs immer so. Vor zehn Jahren war KI kaum ein Thema. Außer in dem Kinofilm „Her“ von Spike Jonze. Da verliebt sich ein Mann in die Stimme der virtuellen KI-Assistentin, die alles für ihn erledigt.
Gesprochen wurde diese Rolle damals von Scarlett Johanssen. Sie war nicht zu sehen, nur zu hören. Und nun plötzlich kommt die Firma OpenAI, die hinter ChatGPT, und lässt den Chatbot mit einer Stimme sprechen, die doch verdächtig nach der der Schauspielerin zu klingen scheint.
Und genau deswegen ist Streit entbrannt.
ChatGPT spricht mit mehreren Stimmen
Vor einer Woche hat OpenAI die neue Version seines Chatbots ChatGPT 4o vorgestellt – wir haben hier darüber gesprochen. Und mit diesem Chatbot kann man sprechen: Ich frage etwas, der Chatbot antwortet mit einer künstlichen Stimme.
Ich kann aus mehreren Stimmen auswählen. Eine nennt sich „Sky“ – und die klinge doch sehr verdächtig nach der von Scarlett Johanssen, meint die Schauspielerin selbst und verdächtigt das Unternehmen, ihre Stimme geklaut zu haben. Der Fall wird untersucht. OpenAI hat aktuell die Stimme „Sky“ aus dem Programm genommen.
Stimmen klonen: Für KI heute kein Problem
Aber könnte man denn theoretisch die Stimme eines Schauspielers wie Scarlett Johansson klonen und welchen Aufwand müsste man da betreiben?
Es ist heute ohne weiteres möglich, die Stimmen von Schauspielern zu klonen – von den meisten liegt reichlich und damit mehr als genug Audio-Material zur Verfügung, um eine Stimm-KI zu trainieren. Für eine durchschnittliche bis gute Klone-Stimme reichen 30 Sekunden bis zwei Minuten; schon kann man eine Stimme recht gut klonen. Um eine Stimme exzellent zu klonen, braucht es etwas mehr, aber fünf bis zehn Minuten reichen aus, um eine wirklich exzellente Stimme zu klonen.
Hier werden meist ganz bestimmte Sätze eingesprochen, damit auch schwierigere Wörter und bestimmte Herausforderungen wie Aussprache, Akzent, Sprechtempo optimal eingefangen und „gelernt“ werden können.
Dann ist es möglich, eine solche Stimme so ziemlich alles sagen zu lassen – und mittlerweile sind auch Emotionen möglich. Im Englischen sind KI-erzeugte Stimmen für Podcasts zum Beispiel auf einem Niveau, dass man es nicht merkt, dass sie nicht echt ist.
Fehler oder Versehen oder Zufall?
Könnte es theoretisch sein, dass die Stimme von Johansson hier einfach kopiert wurde?
Ich würde aus zwei Gründen nein sagen. Zum einen ist die Stimme derart klar und vielfältig, dass das Training mit reinen Sprechproben meiner Ansicht nach nicht ausreichen würde. Da bräuchte es ein gezieltes Training, um diese Qualität hinzubekommen.
Der zweite Grund: Warum sollte sich ein Unternehmen wie OpenAI völlig unnötig in einen derart erheblichen Rechtsstreit stürzen und Schäden für die Reputation in Kauf nehmen? Das erscheint mir nicht plausibel.
OpenAI hat Scarlett Johanssen vor einigen Monaten gefragt, ob sie ihre Stimme hergibt. Sie hat nein gesagt. Vermutlich haben sie eine Sprecherin ausgewählt zum Training, die nur sehr ähnlich klingt. Alles andere würde mich schon sehr wundern.
Stimmen lassen sich perfekt klonen
Aber das Problem bleibt: KI wird immer leistungsfähiger – wie geht das weiter mit dem Klonen von Stimmen?
Das stimmt: Die Fortschritte sind enorm. Vor zwei Jahren hat man definitiv gehört, wenn eine Stimme mit KI erzeugt wurde. Heute ist das teilweise nicht mehr so. In zwei Jahren werden wir es auf keinen Fall mehr bemerken.
Dann werden wir mit Chatbots im Support sprechen, die besser unsere Sprache sprechen als echte Supporter – und immer freundlich bleiben, egal um welche Uhrzeit wir anrufen. Es werden zweifellos viele Jobs wegfallen, im Support, aber auch Stadionsprecher, Sprecher im Bahnhof oder am Flughafen.
Was prominente Stimmen betrifft: Der „AI Act“ der EU sieht Transparenz vor. Ein Unternehmen müsste also offenlegen, wie eine KI trainiert wurde, im Zweifel auch mit welcher Stimme.
Eine Stimme – zudem ungefragt – für bestimmte Zwecke zu klonen, ist zweifellos problematisch. Es scheint noch nicht glasklar geregelt, ob das Klonen einer Stimme, etwa zu Unterhaltungszwecken, erlaubt ist oder nicht. Zur Täuschung darf sie nicht eingesetzt werden. Ein solcher prominenter Fall ist gut geeignet, darüber zu sprechen und Regeln aufzustellen.
Microsoft fügt seinem Edge-Webbrowser in Windows 10 viele interessante neue Funktionen hinzu. Eine der neuen Funktionen ermöglicht es, Websites, PDFs und eBooks vorzulesen. So lässt sich die Funktion „Vorlesen“ in Microsoft Edge finden, verwenden und anpassen.
Um sich eine Webseite im Edge-Browser von Windows 10 vorlesen zu lassen, wird zunächst der Text markiert. Dazu die gewünschte Webseite aufrufen; dann den betreffenden Abschnitt auf der Seite mit der Maus auswählen, der vorgelesen werden soll. Jetzt mit der rechten Maustaste auf die Markierung klicken und dann im Menü die Option Vorlesen aufrufen.
Die Computer-Stimme liest den Text vor und hebt dabei jedes Wort beim Lesen hervor. Oben erscheint außerdem eine Symbolleiste. Damit können die Wiedergabe und andere Optionen gesteuert werden.
Stimme anpassen
Über die Buttons in der Leiste lässt sich die Wiedergabe anhalten oder um einen Absatz vor- oder zurückblättern. Hier kann auch die Stimme und Geschwindigkeit des Lesers angepasst werden. Es stehen drei Stimmen zur Auswahl. Weitere lassen sich hinzufügen, indem auf den Link Weitere Stimmen hinzufügen geklickt wird.
Wer sich einen ganzen Artikel von einer Webseite vorlesen lassen will, ist es am besten, ihn in die Lese-Ansicht zu stellen. Ähnlich wie beim übersichtlichen Drucken in Edge werden die Links und Anzeigen entfernt und nur der Artikel bleibt übrig. Dazu einfach auf das Buch-Symbol in der Adressleiste rechts klicken.
Wer Apple-Karten auf dem iPhone benutzt, um mit dem Auto von A nach B zu kommen, sollte einen Blick in die Einstellungen werfen. Denn hier lässt sich unter anderem auch die Lautstärke der Stimme anpassen.
Wer ein eingeschränktes Sehvermögen hat und sich in einer Stadt trotzdem zurechtfinden möchte, kann damit leicht Schwierigkeiten haben. Einfacher wird die Navigation ab sofort mit der Microsoft-App Soundscape.
Wer diese App auf seinem iPhone installiert hat und dann die Kopfhörer nutzt, kann über 3-D-Audio Informationen zu den Ladengeschäften und Straßen hören, an denen die Person gerade vorbeigeht. Dabei kommt die Stimme aus dem Kopfhörer auch aus der Richtung, in der sich das jeweilig beschriebene Objekt befindet.
Steht man also beispielsweise in Berlin vor dem Apple Store, der sich links neben der Straße befindet, hört man beim Vorbeigehen auch aus dem linken Kopfhörer die Ansage, dass dort Apple Store ist. Eine praktische Sache ist das – nicht nur für Blinde.
Die Soundscape-App für iOS kann kostenlos aus dem US- oder UK-App Store geladen werden. Eine deutsche Version ist bereits in Vorbereitung.
Ob Alexa (Amazon), Siri (Apple) oder Google Assistant: So ziemlich jeder Sprachassistent hat von Haus aus eine weibliche Stimme. Wer zu Hause Google Home im Einsatz hat und sich eine andere Sti mme wünscht, kann seit Version 7.12 eine zusätzliche Stimme in den Einstellungen finden -. und aktivieren.
Sprachassistenten und intelligente Lautsprecher wie Google Home haben sich in den letzten Jahren konstant weiterentwickelt. Nicht nur erkennen sie Sprachbefehle zunehmend zuverlässig, sie antworten mittlerweile auch wesentlich verständlicher.
Für Menschen mit eingeschränktem Sehen ein großer Vorteil: Windows 10 kann Inhalte von Dialogen, Fenstern und Programmen auf Wunsch vorlesen. Möglich macht es die Sprachausgabe. Wenn die Stimme zu schnell oder zu langsam redet, lässt sich dies mit wenigen Schritten anpassen.
Damit Text in Windows 10 langsamer oder auch schneller vorgelesen wird, wird eine Option in der Einstellungs-App angepasst. Und das geht wie folgt: