Deepfakes: Wir können unseren Augen und Ohren nicht mehr trauen

von Jörg Schieb | 01.06.2023 | Digital

Deepfakes: Texte, Bilder, Audios und Videos aus der KI - technisch immer besser

KI-Systeme erstellen längst nicht mehr nur Texte und Bilder, sondern auch Audios und Videos. Und die sind von echten Aufnahmen kaum noch zu unterscheiden. Was solche KI-Systeme heute schon können – und worauf wir achten müssen, um nicht auf Deepfakes hereinzufallen.

Deepfakes bestimmen jetzt schon die Schlagzeiten: Zum Beispiel das Fake-Foto, das den in einer Luxus-Daunenjacke zeigt. Oder vor einigen Tagen die Fake-Aufnahmen einer angeblichen Explosion am Pentagon: Die Aufnahmen kursierten in Social Media und reichten schon, um zumindest kurzzeitig die Börsenkurse einbrechen zu lassen. Auch kursierte schon ein Fake-Video von Wolodymyr Selenskyj, der sein ukrainisches Militär zur Niederlegung der Waffen aufgefordert hat.

Es gibt immer mehr, technisch immer besser gemachte Fakes – erzeugt mit Hilfe von KI.

Ein brennendes Pentagon oder Weißes Haus (hier ein Deepfake) kann Unruhe auslösen

Deepfake – der Begriff

Ein Deepfake ist ein realistisch wirkender Medieninhalt, der mithilfe von künstlicher Intelligenz (KI) manipuliert, erzeugt oder verfälscht wurde. Es handelt sich um eine Form der Medienmanipulation, die auf maschinellem Lernen basiert, insbesondere auf künstlichen neuronalen Netzwerken. Deepfakes sind Videos, bei denen das Gesicht einer Person auf den Körper einer anderen Person gesetzt wurde, wobei diese Manipulation in der Regel so überzeugend ist, dass sie schwer von echten Inhalten zu unterscheiden sind.

Die Technologie hinter Deepfakes nutzt fortschrittliche Algorithmen, um Gesichter in Videos auszutauschen oder andere Veränderungen vorzunehmen. Dabei werden große Mengen an Trainingsdaten verwendet, um das neuronale Netzwerk zu trainieren, Gesichter zu erkennen und realistische Manipulationen vorzunehmen.

Die Manipulation von Videos und Bildern ist an sich nichts Neues, aber Deepfakes haben die Fähigkeit, diese Manipulationen weitgehend autonom durchzuführen und dabei äußerst überzeugende Ergebnisse zu erzielen. Insbesondere der Tausch von Gesichtern, auch bekannt als „faceswap“, ist eine gängige Form der Deepfake-Manipulation.

Es ist wichtig zu beachten, dass Deepfakes potenziell negative Auswirkungen haben können. Sie können dazu verwendet werden, Falschinformationen zu verbreiten, das Ansehen von Personen zu schädigen oder in betrügerischer Absicht eingesetzt werden. Daher besteht ein wachsendes Interesse daran, Technologien zur Erkennung von Deepfakes zu entwickeln und Maßnahmen zum Schutz vor ihrer missbräuchlichen Verwendung zu ergreifen.

Ein Papst in Luxusjacke: Ein Hingucker – aber DeepFake

KI auf dem Vormarsch

Künstliche Intelligenz (KI) ist auf dem Vormarsch: Chatbots wie ChatGPT von OpenAI oder Bard von Google erstellen auf Knopfdruck Texte zu jedem beliebigen Thema und in jeder gewünschten Länge und Ausführlichkeit. Meist in guter Qualität. KI-Systeme wie Midjourney oder Stable Diffusion hingegen erzeugen nach Eingabe entsprechender Kommandos innerhalb weniger Sekunden Fotos, Bilder, Cartoons oder Illustrationen – die mitunter aussehen, als hätten sie Menschen erdacht und gemacht.

Solche KI-Systeme sind allgemein verfügbar – teilweise sogar kostenlos, die besseren kosten einige EUR pro Monat. Mittlerweile gibt es eine regelrechte Flut von Apps, die Brücken zu solchen Inhalte generierenden KI-Systemen baut und sie für alle verfügbar macht, ohne jede Vorkenntnisse (allerdings zu teilweise gepfefferten Preise).

Olaf Scholz am Mikro: Kommt selten vor – deshalb hier ein Deepfake

Text to Speech: Wenn die KI mit synthetischer Stimme spricht

Die nächste Stufe sind Audios und Videos, die mit Hilfe von KI erzeugt werden – und ebenfalls mittlerweile ein bemerkenswertes technisches Niveau erreichen. Eine Unterscheidung zwischen echt und unecht, zwischen wahr und Fake ist für den Laien kaum noch möglich – und schon bald selbst für Experten nicht mehr. Bislang lassen sich durch den Einsatz forensischer Methoden Hinweise für die Erzeugung durch KI finden. Da die KI-Syste,e immer besser werden, ist das schon bald möglicherweise nicht mehr möglich.

So gibt es mittlerweile Dutzende KI-Systeme, die „Text to Speech“-Dienste anbieten: Wer mag, wählt eine Stimme aus, gibt einen Text ein – und die KI erzeugt ein wohlklingendes Audio. Benutzer haben die Auswahl aus Dutzenden von Stimmen – und oft auch Sprechsituationen. Es macht einen Unterschied, ob man ein „Voice over“ – also einen Sprechtext – für ein Video benötigt, oder eine Stimme für einen Podcast erzeugen möchte.

Mit jeder Generation werden solche KI-Systeme, die Elevenlabs, Speechify oder Murf heißen, immer besser und leistungsfähiger. Die KI-Systeme machen vor allem in englischer Sprache riesige Fortschritte: Einen langen Text mit einer synthetischen Stimme sprechen zu lassen, etwa für einen Podcast, ist heute auf einem Niveau möglich, dass niemand auf die Idee käme, die Stimme wäre nicht echt.

Moderne KI-Systeme variieren das Sprechtempo, können auch Emotionen einbringen – sie erzeugen so verblüffend echt wirkende Audios. In der deutschen Sprache bewegen sich die Ergebnisse noch nicht auf diesem Niveau – aber das ist nur eine Frage der Zeit.

Achtung, App hört mit

Fake: KI kann die Stimme eines jeden anderen nachbilden

Doch jetzt wird es problematisch: Immer mehr KI-Systeme bieten die Möglichkeit an, völlig frei eine eigene synthetische Stimmen zu trainieren. Wer nun eigene Sprachproben einspielt, kann zum Beispiel seine eigene Stimme trainieren – oder die jeder anderen Person. Es braucht nur wenige Minuten Sprachtext – möglichst ohne Nebengeräusche –, und schon kann ein System wie Elevenlabs mit der Stimme der Person sprechen.

Bundeskanzler Olaf Scholz aus dem „Kleinen Prinzen“ vorlesen oder die Stauschau vortragen lassen? Gar kein Problem… (siehe Video). Wer nicht genau hinhört, bemerkt den Unterschied kaum oder gar nicht.

Deepfakes: Audios lassen sich leicht fälschen

Komplett monoton klingende KI-Stimmen gehören längst der Vergangenheit an. Heute muss man auf „Natürlichkeit“ achten: Klingen die Stimmen variantenreich und natürlich? Noch kriegen das KI-Systeme mit deutscher Sprache nicht perfekt hin. Aber schon bald wird auch hier kein Unterschied mehr zu hören sein.

Das Risiko liegt auf der Hand: Entsprechend trainiert, lässt sich mit modernen KI-Systemen mit den Stimmen von Prominenten oder Politikern so ziemlich alles sagen. Dem Einsatz manipulativer Deepfakes sind Tür und Tor geöffnet. Durch die weite Verbreitung solcher Systeme und den niederschwelligen Einsatz erhöht sich das Risiko, das Nachrichten mit Deepfakes verbreitet werden. Etwa, indem behauptet wird, ein Politiker hätte etwas gesagt – und als Beleg wird ein Audio verteilt.

Fakes erkennen

KI-Systeme erzeugen Videos – oder tauschen Gesichter aus

Ganz ähnlich verhält es sich mit Videos. Bis vor einigen Monaten waren überzeugende Deepfake-Videos nur im Labor zu erzeugen. Doch die Fortschritte der KI-Systeme sind rasant: Es ist mittlerweile möglich, künstliche Avatare sprechen zu lassen. Oder eigene Avatare zu erzeugen, einer echten Person nachgeahmt, die ebenfalls alles tun und sagen können.

Last not least gibt es bereits KI-Systeme wie „Deepfakesweb.com“, die einen „Face Swap“ anbieten: Das Gesicht in einem A-Video wird durch ein anderes Gesicht aus einem B-Video ausgetauscht. Auf Wunsch kann dieses dann reinmontierte Gesicht alles sagen, was es soll – lippensynchron. Das erfordert einiges an Rechenaufwand, Zeit und Kosten – ist aber eben mittlerweile möglich.

Dabei kommen Videos in technisch guter Qualität heraus. Auch mit solchen Systemen lassen sich mühelos Deepfakes erzeugen, die Menschen in kompromittierenden Situationen zeigen – oder die Dinge sagen (mit synthetischer Stimme kombiniert), die sie nie gesagt haben.

Doch durch KI erzeugte Audios und Videos kommen auch im kriminellen Umfeld zum Einsatz – schon jetzt. So wird der bekannte „Enkeltrick“ erweitert: Potenzielle Opfer bekommen nicht nur einen angeblichen Hilferuf als Textnachricht per Whatsapp zugeschickt, sondern auch schon durch KI erzeugte Hilfeaufrufe in gesprochener Form. Der Aufwand ist zwar etwas höher, der Effekt aber durchschlagend – denn wer misstraut einer Stimme, die er kennt? In den USA haben Kriminelle diese Methode bereits erfolgreich angewandt.

Ein Problem, denn die Polizei ist auf solche kriminelle Methoden noch nicht vorbereitet. Gerhard Schabhüser von „Bundesamt für Sicherheit in der Informationstechnik“ (BSI) sagt:

„Eine technische Unterstützung auf großem Qualitätsniveau gibt es leider noch nicht. Aber ich bin mir sicher, dass wir an dieser Stelle Forschung und Entwicklung vorantreiben müssen, um künftig unseren Bürgerinnen und Bürgern Detektions-Tools von Deepfakes an die Hand zu geben, damit sie das besser bewerten können.“

Bedeutet: Der Experte wünscht sich, dass Bürger selbst mit geeigneten Werkzeugen überprüfen können, ob ein Audio oder Video mit KI erzeugt wurde.

Es gibt diverse KI-Systeme, mit denen sich hochwertige Deepfakes herstellen lassen

Mehr gesundes Misstrauen nötig

Noch gibt es solche Werkzeuge nicht. Bei Audios deshalb auf Sprechtempo und Sprachrhythmus achten: Noch verraten sich manche KI-Systeme durch eine gewisse Monotonie. Bei Videos empfiehlt es sich, ganz genau darauf zu achten, ob lippensynchron gesprochen wird. Auch sind KI-Videos häufig (nicht immer!) etwas „matschig“: Das erfordert weniger Rechenzeit und könnte ein Hinweis auf ein Deepfake sein.

Wir Menschen neigen dazu, unseren Sinnen zu vertrauen. Doch wir leben in einer Zeit, in der nicht nur Fotos, sondern eben auch Audios und Videos leicht zu manipulieren sind – oder sogar komplette Deepfakes erzeugt werden können. Wir sind daher gut beraten, unseren Augen und Ohren nicht einfach mehr so zu trauen. Ein Quellen-Check wird immer wichtiger.