Deepfakes: Wir können unseren Augen und Ohren nicht mehr trauen

von Jörg Schieb | 03.06.2023 | Digital

Ein Papst in Luxusjacke: Ein Hingucker - aber DeepFake

KI-Systeme erstellen längst nicht mehr nur Texte und Bilder, sondern auch Audios und Videos. Und die sind von echten Aufnahmen kaum noch zu unterscheiden. Was solche KI-Systeme heute schon können – und worauf wir achten müssen, um nicht auf Deepfakes hereinzufallen.

Deepfakes bestimmen jetzt schon die Schlagzeiten: Zum Beispiel das Fake-Foto, das den in einer Luxus-Daunenjacke zeigt. Oder vor einigen Tagen die Fake-Aufnahmen einer angeblichen Explosion am Pentagon: Die Aufnahmen kursierten in Social Media und reichten schon, um zumindest kurzzeitig die Börsenkurse einbrechen zu lassen. Auch kursierte schon ein Fake-Video von Wolodymyr Selenskyj, der sein ukrainisches Militär zur Niederlegung der Waffen aufgefordert hat.

Es gibt immer mehr, technisch immer besser gemachte Fakes – erzeugt mit Hilfe von KI.

Künstliche Intelligenz (KI) ist auf dem Vormarsch: Chatbots wie ChatGPT von OpenAI oder Bard von Google erstellen auf Knopfdruck Texte zu jedem beliebigen Thema und in jeder gewünschten Länge und Ausführlichkeit. Meist in guter Qualität. KI-Systeme wie Midjourney oder Stable Diffusion hingegen erzeugen nach Eingabe entsprechender Kommandos innerhalb weniger Sekunden Fotos, Bilder, Cartoons oder Illustrationen – die mitunter aussehen, als hätten sie Menschen erdacht und gemacht.

Solche KI-Systeme sind allgemein verfügbar – teilweise sogar kostenlos, die besseren kosten einige EUR pro Monat. Mittlerweile gibt es eine regelrechte Flut von Apps, die Brücken zu solchen Inhalte generierenden KI-Systemen baut und sie für alle verfügbar macht, ohne jede Vorkenntnisse (allerdings zu teilweise gepfefferten Preise).

DeepFake

Text to Speech: Wenn die KI mit synthetischer Stimme spricht

Die nächste Stufe sind Audios und Videos, die mit Hilfe von KI erzeugt werden – und ebenfalls mittlerweile ein bemerkenswertes technisches Niveau erreichen. Eine Unterscheidung zwischen echt und unecht, zwischen wahr und Fake ist für den Laien kaum noch möglich – und schon bald selbst für Experten nicht mehr. Bislang lassen sich durch den Einsatz forensischer Methoden Hinweise für die Erzeugung durch KI finden. Da die KI-Syste,e immer besser werden, ist das schon bald möglicherweise nicht mehr möglich.

So gibt es mittlerweile Dutzende KI-Systeme, die „Text to Speech“-Dienste anbieten: Wer mag, wählt eine Stimme aus, gibt einen Text ein – und die KI erzeugt ein wohlklingendes Audio. Benutzer haben die Auswahl aus Dutzenden von Stimmen – und oft auch Sprechsituationen. Es macht einen Unterschied, ob man ein „Voice over“ – also einen Sprechtext – für ein Video benötigt, oder eine Stimme für einen Podcast erzeugen möchte.

Mit jeder Generation werden solche KI-Systeme, die Elevenlabs, Speechify oder Murf heißen, immer besser und leistungsfähiger. Die KI-Systeme machen vor allem in englischer Sprache riesige Fortschritte: Einen langen Text mit einer synthetischen Stimme sprechen zu lassen, etwa für einen Podcast, ist heute auf einem Niveau möglich, dass niemand auf die Idee käme, die Stimme wäre nicht echt.

Moderne KI-Systeme variieren das Sprechtempo, können auch Emotionen einbringen – sie erzeugen so verblüffend echt wirkende Audios. In der deutschen Sprache bewegen sich die Ergebnisse noch nicht auf diesem Niveau – aber das ist nur eine Frage der Zeit.

Fake: KI kann die Stimme eines jeden anderen nachbilden

Doch jetzt wird es problematisch: Immer mehr KI-Systeme bieten die Möglichkeit an, völlig frei eine eigene synthetische Stimmen zu trainieren. Wer nun eigene Sprachproben einspielt, kann zum Beispiel seine eigene Stimme trainieren – oder die jeder anderen Person. Es braucht nur wenige Minuten Sprachtext – möglichst ohne Nebengeräusche –, und schon kann ein System wie Elevenlabs mit der Stimme der Person sprechen.

Bundeskanzler Olaf Scholz aus dem „Kleinen Prinzen“ vorlesen oder die Stauschau vortragen lassen? Gar kein Problem… (siehe Video). Wer nicht genau hinhört, bemerkt den Unterschied kaum oder gar nicht.

Deepfakes: Audios lassen sich leicht fälschen

Komplett monoton klingende KI-Stimmen gehören längst der Vergangenheit an. Heute muss man auf „Natürlichkeit“ achten: Klingen die Stimmen variantenreich und natürlich? Noch kriegen das KI-Systeme mit deutscher Sprache nicht perfekt hin. Aber schon bald wird auch hier kein Unterschied mehr zu hören sein.

Das Risiko liegt auf der Hand: Entsprechend trainiert, lässt sich mit modernen KI-Systemen mit den Stimmen von Prominenten oder Politikern so ziemlich alles sagen. Dem Einsatz manipulativer Deepfakes sind Tür und Tor geöffnet. Durch die weite Verbreitung solcher Systeme und den niederschwelligen Einsatz erhöht sich das Risiko, das Nachrichten mit Deepfakes verbreitet werden. Etwa, indem behauptet wird, ein Politiker hätte etwas gesagt – und als Beleg wird ein Audio verteilt.

Deepfake: Das Foto ist ein Deepfake – die Audios von Olaf Scholz ebenso

KI-Systeme erzeugen Videos – oder tauschen Gesichter aus

Ganz ähnlich verhält es sich mit Videos. Bis vor einigen Monaten waren überzeugende Deepfake-Videos nur im Labor zu erzeugen. Doch die Fortschritte der KI-Systeme sind rasant: Es ist mittlerweile möglich, künstliche Avatare sprechen zu lassen. Oder eigene Avatare zu erzeugen, einer echten Person nachgeahmt, die ebenfalls alles tun und sagen können.

Last not least gibt es bereits KI-Systeme wie „Deepfakesweb.com“, die einen „Face Swap“ anbieten: Das Gesicht in einem A-Video wird durch ein anderes Gesicht aus einem B-Video ausgetauscht. Auf Wunsch kann dieses dann reinmontierte Gesicht alles sagen, was es soll – lippensynchron. Das erfordert einiges an Rechenaufwand, Zeit und Kosten – ist aber eben mittlerweile möglich.

Dabei kommen Videos in technisch guter Qualität heraus. Auch mit solchen Systemen lassen sich mühelos Deepfakes erzeugen, die Menschen in kompromittierenden Situationen zeigen – oder die Dinge sagen (mit synthetischer Stimme kombiniert), die sie nie gesagt haben.

Doch durch KI erzeugte Audios und Videos kommen auch im kriminellen Umfeld zum Einsatz – schon jetzt. So wird der bekannte „Enkeltrick“ erweitert: Potenzielle Opfer bekommen nicht nur einen angeblichen Hilferuf als Textnachricht per Whatsapp zugeschickt, sondern auch schon durch KI erzeugte Hilfeaufrufe in gesprochener Form. Der Aufwand ist zwar etwas höher, der Effekt aber durchschlagend – denn wer misstraut einer Stimme, die er kennt? In den USA haben Kriminelle diese Methode bereits erfolgreich angewandt.

Ein Problem, denn die Polizei ist auf solche kriminelle Methoden noch nicht vorbereitet. Gerhard Schabhüser von „Bundesamt für Sicherheit in der Informationstechnik“ (BSI) sagt dem WDR: „Eine technische Unterstützung auf großem Qualitätsniveau gibt es leider noch nicht. Aber ich bin mir sicher, dass wir an dieser Stelle Forschung und Entwicklung vorantreiben müssen, um künftig unseren Bürgerinnen und Bürgern Detektions-Tools von Deepfakes an die Hand zu geben, damit sie das besser bewerten können.“ Bedeutet: Der Experte wünscht sich, dass Bürger selbst mit geeigneten Werkzeugen überprüfen können, ob ein Audio oder Video mit KI erzeugt wurde.

FaceSwap

Mehr gesundes Misstrauen nötig

Noch gibt es solche Werkzeuge nicht. Bei Audios deshalb auf Sprechtempo und Sprachrhythmus achten: Noch verraten sich manche KI-Systeme durch eine gewisse Monotonie. Bei Videos empfiehlt es sich, ganz genau darauf zu achten, ob lippensynchron gesprochen wird. Auch sind KI-Videos häufig (nicht immer!) etwas „matschig“: Das erfordert weniger Rechenzeit und könnte ein Hinweis auf ein Deepfake sein.

Wir Menschen neigen dazu, unseren Sinnen zu vertrauen. Doch wir leben in einer Zeit, in der nicht nur Fotos, sondern eben auch Audios und Videos leicht zu manipulieren sind – oder sogar komplette Deepfakes erzeugt werden können. Wir sind daher gut beraten, unseren Augen und Ohren nicht einfach mehr so zu trauen. Ein Quellen-Check wird immer wichtiger.