VoCo: Die Software, die sprechen kann

von Jörg Schieb | 08.11.2016 | Tipps

Eine neue Software wäre dazu in der Lage, nicht nur Politikern und Promis jedes Wort im Mund umzudrehen, sondern mit der Stimme eines jeden zu sprechen. Eine Art „Photoshop für Audios“, das Software-Schmiede Adobe da entwickelt hat.

Einmal im Jahr hält Adobe eine Haus-Messe ab, so wie es alle großen Software-Firmen in den USA machen, um Kunden und Partnern ihre neuesten Errungenschaften zu zeigen. Max heißt die Haus-Messe von Adobe, sie hat vor einigen Tagen in San Diego stattgefunden. Und dort haben Entwickler eine Software gezeigt, die das gesamte Auditorium in Erstaunen versetzt hat.

VoCo nennt sich die Software, die noch nicht verkaufsreif ist, aber doch schon erstaunlich weit. Mit VoCo kann man jemanden sprechen lassen, was immer man möchte. Dazu braucht man lediglich Audio-Material, also gesprochene Texte. Die kann man in VoCo einlesen – und bearbeiten. So wie in einem Bildbearbeitungs-Programm kann man alles verändern, einzelne Wörter streichen, neue hinzufügen.

stage_voco

Das Wort im Mund umdrehen

Die Software kann einem das Wort im Mund umdrehen. Etwas, was schon mal gesagt wurde, zu schneiden, das können viele gute Ton-Techniker. Einen Räusperer entfernen, ein „Äh“ oder „und“ – kein Problem. Aber ein einzelnes Wort ist schon schwieriger, weil dann oft die Satz-Melodie nicht mehr stimmt. Bei VoCo ist das anders. Die Software analysiert das Gesagte.

Man sieht auf dem Bildschirm nicht nur die typischen Audio-Kurven, sondern auch das, was die Person sagt, als geschriebene Wörter. Transkribiert. Wenn man nun etwas ändern will am Text, editiert man einfach den Text – wie in einer Text-Verarbeitung. Man kann Wörter streichen oder auch umstellen. Die Software spricht das anschließend fehlerfrei aus – mit der Stimme der Person, die analysiert wurde. Wenn etwas manipuliert wurde, ist das kaum zu hören.

VoCo kann sagen, was man will

Wenn man VoCo ausreichend trainiert, ist auch das möglich. Und ausreichend bedeutet: Die Software braucht 20 Minuten Audio-Material einer Person, also 20 Minuten gesprochenen Text. Das reicht. Wenn VoCo so viel Material zur Verfügung gestellt wird, kann die Software sogar Wörter nachahmen. VoCo kann dann alles sagen – mit der Stimme des betreffenden Menschen.

VoCo zerlegt das, was gesagt wird, in Phoneme. Unsere Sprache besteht aus Phonemen. Wenn die erst mal in verschiedenen Tonlagen – für Satz-Anfang und Satz-Ende zum Beispiel – und in verschiedenen Lautstärken und Geschwindigkeiten vorliegen, kann VoCo daraus wir aus einem Puzzle alles zusammensetzen.

Gut Ton-Qualität

Das ist ja das beängstigende: Man hört es zwar noch ein bisschen, aber jetzt schon kaum. Wenn die Software weiter entwickelt wird, muss man befürchten, dass man es nicht mehr hören kann. Unsere Ohren lassen sich leichter täuschen als unsere Augen – und Photoshop gibt es schließlich auch. Oft können nur Experten oder Techniker sagen, ob ein Foto mit Photoshop oder anderen Programmen manipuliert wurde. So wird es auch mit VoCo kommen.

Wo soll das enden?

Zu Ende gedacht so ziemlich alles. Es wird bestimmt damit anfangen, dass Politikern oder Prominenten Sätze in den Mund gelegt werden, die sie nie gesagt haben – doch es hört sich so an, als hätten sie sie gesagt. Man wird irgendwann nichts mehr glauben könnten, alles könnte manipuliert sein. Höre ich wirklich das, was ich höre?

Von der Person, von der ich glaube, dass sie es sagt? Nur das live gesprochene Wort wäre – erst mal! – nicht so leicht zu manipulieren, denn es braucht eine Zeit, das, was gesagt werden soll, einzutippen oder zu erzeugen. Aber alles andere – manipulierbar. Das könnte sogar vor Gericht eine Rolle spielen. Wie will man beweisen, dass jemand etwas gesagt hat, was jemand anders gehört haben will?

Fälschungen enttarnen?

Einen Weg, sich zu schützen, gibt es kaum. Jeder, der etwas zu sagen hat, könnte seine Audio-Dateien mit einem Wasser-Zeichen oder einer Prüfsumme versehen. Auf diese Weise könnte man zumindest Manipulationen erkennen. Aber im Alltag wird das kaum möglich sein. VoCo könnte das Vertrauen in das gesprochene Wort erschüttern. Man muss allerdings befürchten, dass Geheim-Dienste über eine solche Technologie verfügen – die sind technisch meist einige Jahre voraus.

Verfügbarkeit

Noch macht Adobe keine Angaben, ob und wann diese Software auf den Markt kommt, ob als eigenständiges Produkt – oder als Bestand-Teil einer anderen Software. Doch die Software ist schon ziemlich weit entwickelt und birgt enormes Potenzial: Man muss wohl davon ausgehen, dass Adobe sie bald auf den Markt bringt.