KI kann auch sprechen: Die faszinierende Welt der Stimmensynthese

KI kann auch sprechen: Die faszinierende Welt der Stimmensynthese

Stell dir vor, du hörst die Stimme deines Lieblingsstars – aber es ist nicht wirklich seine Stimme. KI macht’s möglich.

Künstliche Intelligenz revolutioniert die Art und Weise, wie wir Sprache wahrnehmen und erzeugen. Erfahre, wie KI menschliche Stimmen lernen und täuschend echt imitieren kann – inklusive Emotionen.

Der KI-Stimmensynthesizer spricht auf Wunsch mit der sanften Stimme von Santa Claus
Der KI-Stimmensynthesizer spricht auf Wunsch mit der sanften Stimme von Santa Claus

Von Sprachsynthese zu Stimmenimitation

Die Erzeugung künstlicher Sprache ist keine neue Erfindung. Seit Jahrzehnten gibt es Sprachsynthese-Systeme, die geschriebenen Text in gesprochene Sprache umwandeln. Diese Systeme basieren auf einer Datenbank aufgenommener Sprachfragmente, die zu Wörtern und Sätzen zusammengefügt werden. Das Ergebnis klingt oft roboterhaft und unnatürlich.

Doch mit dem Aufkommen von Deep Learning und neuronalen Netzen hat sich das Feld rasant weiterentwickelt. Moderne KI-Systeme sind in der Lage, nicht nur Sprache zu generieren, sondern auch den Klang einer bestimmten Person zu imitieren – mit verblüffender Genauigkeit.

Das Geheimnis liegt in den Daten

Um eine Stimme zu synthetisieren, braucht die KI vor allem eines: Daten, und zwar jede Menge davon. Je mehr Audiomaterial einer bestimmten Person zur Verfügung steht, desto besser kann die KI deren stimmliche Eigenheiten erfassen und nachahmen.

Das Training erfolgt meist mit neuronalen Netzen, insbesondere sogenannten „Generative Adversarial Networks“ (GANs). Dabei lernen zwei Netzwerke quasi im Wettstreit: Ein Generator-Netz erzeugt Audiodaten, die der Originalstimme möglichst ähnlich sein sollen. Ein Diskriminator-Netz versucht, die generierten Daten von echten zu unterscheiden. Durch viele Trainingsrunden verbessern sich beide Netzwerke immer weiter.

Emotionen erwecken die Stimme zum Leben

Eine menschliche Stimme transportiert weit mehr als nur den gesprochenen Text. Betonung, Tonfall, Sprechgeschwindigkeit – all das verleiht dem Gesagten eine emotionale Färbung. Und genau diese Nuancen machen eine synthetisierte Stimme erst wirklich überzeugend.

Moderne Stimmenmodelle sind in der Lage, solche Feinheiten zu erfassen und wiederzugeben. Dafür analysieren sie nicht nur die Audiodaten selbst, sondern auch den Kontext, in dem sie gesprochen wurden. Mithilfe von Sentiment-Analyse und Textverständnis kann die KI die passende emotionale Färbung auswählen und auf den generierten Text übertragen.

KI kann jetzt prraktisch jede menschliche Stimme nachahmen - in Sekunden
KI kann jetzt prraktisch jede menschliche Stimme nachahmen – in Sekunden

Ein Blick in die Zukunft

Die Stimmensynthese hat in den letzten Jahren enorme Fortschritte gemacht. Aktuelle Systeme wie WaveNet von Google oder Real-Time Voice Cloning von Baidu erzeugen Ergebnisse, die von echten Stimmen kaum noch zu unterscheiden sind.

Doch die Entwicklung geht weiter. Forscher arbeiten daran, die benötigte Datenmenge zu reduzieren und die Flexibilität der Modelle zu erhöhen. Bald könnten wir KI-Systeme haben, die nach dem Hören weniger Sätze eine Stimme imitieren und beliebige Texte darin vorlesen können – inklusive lebensechter Emotionen.

Die Möglichkeiten sind faszinierend: Virtuelle Assistenten mit der Stimme eines geliebten Menschen, personalisierte Hörbücher oder sogar „Gespräche“ mit historischen Persönlichkeiten. Zugleich wirft die Technologie auch ethische Fragen auf, etwa nach dem Schutz der Persönlichkeitsrechte. Eines ist sicher: Stimmensynthese wird in Zukunft eine immer größere Rolle spielen – und wir sollten sowohl die Chancen als auch die Herausforderungen im Blick behalten.

KI: Scarlett Johanssen beklagt, dass eine Stimme von ChatGPT ihrer ähnelt

KI: Scarlett Johanssen beklagt, dass eine Stimme von ChatGPT ihrer ähnelt

Hollywood-Star Scarlett Johanssen beklagt sich: OpenAIs ChatGPT 4o würde in der App eine Stimme namens „Sky“ verwenden, die ihrer Stimme extrem ähnelt. Ein Streit ist entbrannt.

Seit einigen Monaten reden wir gefühlt ständig über Künstliche Intelligenz. Das war keineswegs immer so. Vor zehn Jahren war KI kaum ein Thema. Außer in dem Kinofilm „Her“ von Spike Jonze. Da verliebt sich ein Mann in die Stimme der virtuellen KI-Assistentin, die alles für ihn erledigt.

KI-Systeme können heute perfekt Stimmen immitieren: Scarlett Johanssen hat sich beschwert
KI-Systeme können heute perfekt Stimmen immitieren: Scarlett Johanssen hat sich beschwert

Gesprochen wurde diese Rolle damals von Scarlett Johanssen. Sie war nicht zu sehen, nur zu hören. Und nun plötzlich kommt die Firma OpenAI, die hinter ChatGPT, und lässt den Chatbot mit einer Stimme sprechen, die doch verdächtig nach der der Schauspielerin zu klingen scheint.

Und genau deswegen ist Streit entbrannt.

ChatGPT spricht mit mehreren Stimmen

Vor einer Woche hat OpenAI die neue Version seines Chatbots ChatGPT 4o vorgestellt – wir haben hier darüber gesprochen. Und mit diesem Chatbot kann man sprechen: Ich frage etwas, der Chatbot antwortet mit einer künstlichen Stimme.

Ich kann aus mehreren Stimmen auswählen. Eine nennt sich „Sky“ – und die klinge doch sehr verdächtig nach der von Scarlett Johanssen, meint die Schauspielerin selbst und verdächtigt das Unternehmen, ihre Stimme geklaut zu haben. Der Fall wird untersucht. OpenAI hat aktuell die Stimme „Sky“ aus dem Programm genommen.

Stimmen klonen: Für KI heute kein Problem

Aber könnte man denn theoretisch die Stimme eines Schauspielers wie Scarlett Johansson klonen und welchen Aufwand müsste man da betreiben?

Es ist heute ohne weiteres möglich, die Stimmen von Schauspielern zu klonen – von den meisten liegt reichlich und damit mehr als genug Audio-Material zur Verfügung, um eine Stimm-KI zu trainieren. Für eine durchschnittliche bis gute Klone-Stimme reichen 30 Sekunden bis zwei Minuten; schon kann man eine Stimme recht gut klonen. Um eine Stimme exzellent zu klonen, braucht es etwas mehr, aber fünf bis zehn Minuten reichen aus, um eine wirklich exzellente Stimme zu klonen.

Hier werden meist ganz bestimmte Sätze eingesprochen, damit auch schwierigere Wörter und bestimmte Herausforderungen wie Aussprache, Akzent, Sprechtempo optimal eingefangen und „gelernt“ werden können.

Dann ist es möglich, eine solche Stimme so ziemlich alles sagen zu lassen – und mittlerweile sind auch Emotionen möglich. Im Englischen sind KI-erzeugte Stimmen für Podcasts zum Beispiel auf einem Niveau, dass man es nicht merkt, dass sie nicht echt ist.

Google und OpenAI kämpfen um die Pole Position im KI-Markt
Google und OpenAI kämpfen um die Pole Position im KI-Markt

Fehler oder Versehen oder Zufall?

Könnte es theoretisch sein, dass die Stimme von Johansson hier einfach kopiert wurde?

Ich würde aus zwei Gründen nein sagen. Zum einen ist die Stimme derart klar und vielfältig, dass das Training mit reinen Sprechproben meiner Ansicht nach nicht ausreichen würde. Da bräuchte es ein gezieltes Training, um diese Qualität hinzubekommen.

Der zweite Grund: Warum sollte sich ein Unternehmen wie OpenAI völlig unnötig in einen derart erheblichen Rechtsstreit stürzen und Schäden für die Reputation in Kauf nehmen? Das erscheint mir nicht plausibel.

OpenAI hat Scarlett Johanssen vor einigen Monaten gefragt, ob sie ihre Stimme hergibt. Sie hat nein gesagt. Vermutlich haben sie eine Sprecherin ausgewählt zum Training, die nur sehr ähnlich klingt. Alles andere würde mich schon sehr wundern.

KI kann jetzt prraktisch jede menschliche Stimme nachahmen - in Sekunden
KI kann jetzt prraktisch jede menschliche Stimme nachahmen – in Sekunden

Stimmen lassen sich perfekt klonen

Aber das Problem bleibt: KI wird immer leistungsfähiger – wie geht das weiter mit dem Klonen von Stimmen?

Das stimmt: Die Fortschritte sind enorm. Vor zwei Jahren hat man definitiv gehört, wenn eine Stimme mit KI erzeugt wurde. Heute ist das teilweise nicht mehr so. In zwei Jahren werden wir es auf keinen Fall mehr bemerken.

Dann werden wir mit Chatbots im Support sprechen, die besser unsere Sprache sprechen als echte Supporter – und immer freundlich bleiben, egal um welche Uhrzeit wir anrufen. Es werden zweifellos viele Jobs wegfallen, im Support, aber auch Stadionsprecher, Sprecher im Bahnhof oder am Flughafen.

Was prominente Stimmen betrifft: Der „AI Act“ der EU sieht Transparenz vor. Ein Unternehmen müsste also offenlegen, wie eine KI trainiert wurde, im Zweifel auch mit welcher Stimme.

Eine Stimme – zudem ungefragt – für bestimmte Zwecke zu klonen, ist zweifellos problematisch. Es scheint noch nicht glasklar geregelt, ob das Klonen einer Stimme, etwa zu Unterhaltungszwecken, erlaubt ist oder nicht. Zur Täuschung darf sie nicht eingesetzt werden. Ein solcher prominenter Fall ist gut geeignet, darüber zu sprechen und Regeln aufzustellen.

Edge: Webseiten vorlesen

Edge: Webseiten vorlesen

Microsoft fügt seinem Edge-Webbrowser in Windows 10 viele interessante neue Funktionen hinzu. Eine der neuen Funktionen ermöglicht es, Websites, PDFs und eBooks vorzulesen. So lässt sich die Funktion „Vorlesen“ in Microsoft Edge finden, verwenden und anpassen.

Um sich eine Webseite im Edge-Browser von Windows 10 vorlesen zu lassen, wird zunächst der Text markiert. Dazu die gewünschte Webseite aufrufen; dann den betreffenden Abschnitt auf der Seite mit der Maus auswählen, der vorgelesen werden soll. Jetzt mit der rechten Maustaste auf die Markierung klicken und dann im Menü die Option Vorlesen aufrufen.

Die Computer-Stimme liest den Text vor und hebt dabei jedes Wort beim Lesen hervor. Oben erscheint außerdem eine Symbolleiste. Damit können die Wiedergabe und andere Optionen gesteuert werden.

Stimme anpassen

Über die Buttons in der Leiste lässt sich die Wiedergabe anhalten oder um einen Absatz vor- oder zurückblättern. Hier kann auch die Stimme und Geschwindigkeit des Lesers angepasst werden. Es stehen drei Stimmen zur Auswahl. Weitere lassen sich hinzufügen, indem auf den Link Weitere Stimmen hinzufügen geklickt wird.

Wer sich einen ganzen Artikel von einer Webseite vorlesen lassen will, ist es am besten, ihn in die Lese-Ansicht zu stellen. Ähnlich wie beim übersichtlichen Drucken in Edge werden die Links und Anzeigen entfernt und nur der Artikel bleibt übrig. Dazu einfach auf das Buch-Symbol in der Adressleiste rechts klicken.

Audio-Navigation in Städten

Audio-Navigation in Städten

Wer ein eingeschränktes Sehvermögen hat und sich in einer Stadt trotzdem zurechtfinden möchte, kann damit leicht Schwierigkeiten haben. Einfacher wird die Navigation ab sofort mit der Microsoft-App Soundscape.

Wer diese App auf seinem iPhone installiert hat und dann die Kopfhörer nutzt, kann über 3-D-Audio Informationen zu den Ladengeschäften und Straßen hören, an denen die Person gerade vorbeigeht. Dabei kommt die Stimme aus dem Kopfhörer auch aus der Richtung, in der sich das jeweilig beschriebene Objekt befindet.

Steht man also beispielsweise in Berlin vor dem Apple Store, der sich links neben der Straße befindet, hört man beim Vorbeigehen auch aus dem linken Kopfhörer die Ansage, dass dort Apple Store ist. Eine praktische Sache ist das – nicht nur für Blinde.

Die Soundscape-App für iOS kann kostenlos aus dem US- oder UK-App Store geladen werden. Eine deutsche Version ist bereits in Vorbereitung.

https://itunes.apple.com/gb/app/microsoft-soundscape/id1240320677?mt=8

https://www.youtube.com/watch?v=fiu4eecCqTY

Bild: Microsoft

Stimme auf Google Home ändern

Stimme auf Google Home ändern

Ob Alexa (Amazon), Siri (Apple) oder Google Assistant: So ziemlich jeder Sprachassistent hat von Haus aus eine weibliche Stimme. Wer zu Hause Google Home im Einsatz hat und sich eine andere Sti mme wünscht, kann seit Version 7.12 eine zusätzliche Stimme in den Einstellungen finden -. und aktivieren.

(mehr …)

Text langsamer oder schneller vorlesen

Text langsamer oder schneller vorlesen

Für Menschen mit eingeschränktem Sehen ein großer Vorteil: Windows 10 kann Inhalte von Dialogen, Fenstern und Programmen auf Wunsch vorlesen. Möglich macht es die Sprachausgabe. Wenn die Stimme zu schnell oder zu langsam redet, lässt sich dies mit wenigen Schritten anpassen.

Damit Text in Windows 10 langsamer oder auch schneller vorgelesen wird, wird eine Option in der Einstellungs-App angepasst. Und das geht wie folgt:

  1. Als Erstes auf Start, Einstellungen klicken.
  2. Hier zum Bereich Zeit und Sprache wechseln.
  3. Dort auf der linken Seite die Rubrik Spracherkennung markieren.
  4. Nun rechts unter der Überschrift Text-zu-Sprache den Schieber für die Geschwindigkeit nach links (langsamer) oder nach rechts (schneller) schieben.