Ohren überall: Die smarten Lautsprecher hören immer zu

von Jörg Schieb | 09.09.2019 | Digital

Viele Menschen haben heute „smarte Lautsprecher“ wie Alexa, Google Home, Apple HomePod oder vergleichbare Geräte stehen. Oder sie sprechen im Auto mit Assistenten, ob mit Alexa, Siri, Cortana oder Google Assistant. Im Smartphone sind sie auch eingebaut.

Man kann sich Fragen beantworten lassen, kann Termin in den Kalender eintragen, einen Anruf tätigen, Texte diktieren, Geräte im Smarthome steuern oder Musik oder Podcasts starten. Vieles davon scheint praktisch und viele Menschen sind begeistert davon. Andere fühlen sich ausgehorcht und auspioniert, weil mit damit die Ohren der Konzern bis in unsere Wohnzimmer reichen.

Seit einigen Wochen wissen wir: Gelegentlich hören nicht nur die Maschinen und Computeralgorithmen mit, sondern auch Menschen aus Fleisch und Blut, was wir mit den Assistenten gesprochen haben – teilweise auch ungewollt aufgenommene Sprachfetzen. Das ist das Gegenteil von diskret – und erschreckt nicht nur Skeptiker.

Es scheint zwei Lager zu geben. Die einen nutzen die smarten Lautsprecher gerne und ohne große Gewissensbisse, selbst zu Hause. Sie stört es auch nicht, wenn dabei Daten anfallen oder echte Mitarbeiter möglicherweise Gesprächsfetzen abhören. Der praktische und vor allem bequeme Nutzen überwiegt für sie. Das andere Lager ist das der Totalverweigerer: „So ein Gerät kommt mir nichts ins Haus!“. Gründe dafür gibt es schließlich reichlich.

Ich wäre ein schlechter Journalist, wenn ich die Geräte nicht testen und ausprobieren würde. Ich habe natürlich nicht alle, aber einige. Siri verwende ich durchaus häufiger mal, um Nachrichten zu diktieren oder Termine einzutragen. Oder um Podcasts abzuspielen – das ist im Auto praktisch, weil ich dann nicht beim Fahren abgelenkt werde. Auch meine Kinder benutzen Alexa, um Fragen zu stellen – oder Musik abzuspielen.

WIe ausgereift sind die Assistenten?

In der Werbung sind die Assistenten kleine Wunder: Sie verstehen alles. In der Praxis sieht es völlig anders aus. Der Grad an Missverständnissen ist hoch. Musiktitel werden falsch verstanden, Namen ebenso, Fragen nicht richtig beantwortet oder Texte falsch geschrieben. Bei Google Home gefällt mir, dass man sich auf die vorangegangene Kommunikation beziehen kann. Etwa: „Wie heißt die deutsche Bundeskanzlerin?“ Und danach: „Wie alt ist sie?“. Sie! Das kann Siri zB nicht. Wir sind also noch weit davon entfernt, dass uns die Digitalen Assistenten perfekt verstehen.

In den USA gibt es etwa in jedem dritten Haushalt bereits einen Smart-Speaker wie Amazon Echo oder Homepod, in Deutschland in jedem zehnten Haushalt. Am erfolgreichsten ist Amazon: Alexa macht fast die Hälfte des Marktanteils aus. Auf den Smartphones ist es natürlich anders. Da nutzen wir die Assistenten, die voreingestellt sind. Siri bei Apple, Cortana bei Windows, Google Assistent bei Android etc.

Wie funktioniert das eigentlich technisch?

Wenn wir die Assistenten etwas fragen – wie können sie so schnell antworten?

Wichtig zu wissen: Alles, was man einem Digitalen Assistenten sagt oder einem smarten Lautsprecher, geht in die Cloud. Die Sprachanalyse findet nicht in den Geräten statt, sondern in der Cloud. Dort verarbeitet KI das Gesagte – und liefert blitzschnell passende Antworten. Das merken wir gar nicht, so schnell geht das. Aber: Ohne Online-Anbindung funktionieren die Assistenten gar nicht.

Die Digitalen Assistenten ziehen nach und nach überall ein. Es gibt bereits Mikrowellen, die mit Amazon Alexa ausgestattet sind: Alexa – wann ist das Roastbeef fertig? Im Ernst: Wir fangen an, mit den Küchengeräten reden zu können. Auch im Auto. So kommen immer neue Geräte dazu. Das Ziel der Anbieter dieser Systeme ist: eine flächendeckende Versorgung mit ihren „Diensten“.

Warum bieten Amazon, Apple, Microsoft und Google Assistenten an?

Das ist eine sehr wichtige Frage. Es geht darum, ständig mit uns in Verbindung zu stehen. Wenn wir ständig mit Alexa reden, buchen wir vielleicht auch den Musik-Dienst dort, hören Hörbücher von Amazon, bestellen die gerade zur Neige gehenden Spülmaschinen-Tabs bei Amazon nach. Bei Google nicht viel anders. Das bedeutet aber auch – und das muss jedem klar sein: Alles, was gesprochen wird, zumindest nach dem jeweiligen Schlüsselwort „Alexa“, „Google“, „Cortana“ oder „Siri“, geht an Server – und wird dort nicht nur analysiert, sondern auch dauerhaft gespeichert.

Insgesamt muss man sagen: Alle Anbieter, ob Amazon, Google, Microsoft oder Apple, profitieren von einer möglichst häufigen Nutzung, da sie so immer mehr Daten von uns bekommen – und uns immer besser kennenlernen. Und wir wissen ja: Je genauer die Profile, desto besser für die Anbieter.

Berechtigte Sorgen

Absolut. Je mehr wir die Assistenten nutzen, desto mehr erfahren sie. Nicht nur, was uns interessiert, wann und wo wir sie benutzen, sondern viel mehr. Etwa, ob wir alleine sind – das lässt sich an den Hintergrundgeräuschen ermitteln. In welcher Stimmung wir sind. Ob swir krank sind, depressiv oder fröhlich – das lässt sich nicht nur anhand der Stimme ermitteln, sondern auch, welche Musik wir hören oder welche Artikel wir lesen. Es ist wirklich erschreckend, welche Schlüsse sich ziehen lassen, wenn wir die Assistenten viel nutzen. Ein guter Freund weiß auch nach einem „Hmm“, ob ich gut drauf bin oder nicht.

Nun haben wir ja erfahren: Es ist eben nicht nur KI, die uns zuhört. Ob Apple, Amazon, Facebook, Google oder Microsoft: Sie allen lassen Mitarbeiter in Aufnahmen reinhören. Wieso hören Menschen aus Fleisch und Blut Gespräche ab, die wir mit einem Digitalen Assistenten führen?

Die KI-Systeme verstehen die Anweisungen nicht immer. Es gibt häufig Probleme. Um herauszufinden, woran es liegt, dass die KI-Software nicht richtig versteht, hören gelegentlich echte Menschen in die Audioaufnahmen hinein – und versuchen so, der Maschine das Zuhören beizubringen.

Wer hört denn da genau zu – und was hören sie an?

Ausgewählt zum Probehören durch Menschen werden nicht einwandfrei verstandene Anweisungen, bei denen sich die KI nicht sicher ist, ob alles richtig verstanden wurde. Aber auch Gesprächsfetzen, die Schwierigkeiten bei der Analyse gemacht haben. Etwa, weil genuschelt wurde, weil mehrere Leute gleichzeitig geredet haben, ein Akzent oder Dialekt dabei war – oder einfach, weil aus Versehen etwas aufgezeichnet wurde, was gar nicht für die Assistenten gedacht war.

Echte Menschen können das dann viel besser verstehen. Sie machen sich Notizen und sollen so helfen, die KI-Systeme zu verbessern. Es sind Mitarbeiter der jeweiligen Unternehmen, also Amazon, Google, Apple und Co. – oder Mitarbeiter von Unternehmen, die dafür bezahlt werden, also in externen Firmen. Wer das genau macht, weiß man nie. Aber alle Unternehmen machen solche Stichproben.

Allerdings versichern Apple, Amazon und Google, dass die Sprachfetzen anonymisiert sind. Das heißt, die Abhörexperten wissen nicht, von wem sie da etwas hören. Ob das stimmt, können wir nicht wissen und auch nicht kontrollieren. Außerdem gibt es Situationen, da erschließt sich schon aus dem aufgezeichneten Gespräch, wer redet, mit wem oder über wen., wenn zum Beispiel Namen fallen, wenn Orte genannt werden.

Michael Schmidt: Wenn Du noch einmal zum Alexanderplatz gehst… Die Heise-Redaktion hatte Sprachfetzen von einer Familie, cie versehentlich einem anderen User ins Konto gelegt wurden. Nach zwei Stunden Ermittlungsarbeit wussten sie, von wem da Gespräche abgehört wurden. Da hilft die ganze mögliche Anonymisierung nichts.

Korrekturhörer: Eine ganz neue Berufsbezeichnung?

Ja, es gibt mittlerweile Hunderte davon der ganzen Welt. Sie hören den ganzen Tag Audios ab – bis zu 1600 pro Arbeitstag. Etwa drei Audios pro Minute. Da bleibt nicht viel Zeit, sich mit Details zu beschäftigen. Diese „Click Worker“ arbeiten in der Regel in externen Unternehmen, die Apple, Amazon, Google und Microsoft anheuern.

Apple hat das stichprobenartige Abhören durch echte Mitarbeiter vorerst eingestellt. Google ebenso vor einigen Tagen – allerdings nur in der EU, wo strengere Datenschutzrichtlinien bestehen. Der Hintergrund: Bislang war den meisten unbekannt, dass es zu stichprobenartigem Abhören durch Menschen kommt.

Den meisten ist es – verständlicherweise – unangenehm zu wissen, dass möglicherweise echte Menschen Anweisungen oder versehentlich aufgezeichnete Gespräche aufzeichnen. Das ist jetzt bekannt geworden – und viele User haben sich beschwert. Vor allem, weil über diesen Sachverhalt gar nicht aufgeklärt wird. Apple will aber nicht vollständig darauf verzichten: Künftig werden die User informiert – und können sich entscheiden, ob sie ggf. zur Verbesserung des Services ein Abhören durch echte Menschen zustimmen wollen.

Immerhin haben Google und Apple reagiert – und unternehmen etwas. Das finde ich positiv. Amazon zeigt sich wie immer unbeeindruckt und macht mit dieser Praxis erst mal weiter. Allerdings wird sich das nicht mehr lange durchhalten lassen: Die Aufmerksamkeit nimmt zu. Immer mehr Menschen wird klar, dass die Digitalen Assistenten ein Sicherheitsrisiko für die Privatsphäre darstellen. Ganz sicher werden auch die Vorschriften verschärft. „Sicher“ ist kein Digitaler Assistent. Denn die Anweisungen werden dauerhaft auf Servern gespeichert, teilweise auch versehentlich aufgezeichnete Gesprächsfetzen.

Wie lässt sich das unterbinden?

Jein. Wer die Assistenten nutzt, muss immer damit rechnen, dass das gesprochene Wort auf Server geschickt und gespeichert wird. Wer Diskretion will: Stecker ziehen – ausschalten. Und bei Siri und Co. auf dem Smartphone: Hier die Funktion deaktivieren, dass sie auf Schlüsselwort reagieren. Besser, man drückt den entsprechenden Button. / Oder schaltet das Gerät sogar ganz aus?

Es gibt ja die absoluten Alexa und Google–Verweigerer, die würden sich niemals so ein Gerät ins Haus stellen, aber wie gehen die mit Freunden und Verwandten um, bei denen so ein Gerät steht, werden dann doch auch aufgezeichnet, obwohl nicht bei Amazon registriert.

Wer eine Wohnung betritt und nicht weiss, dass dort Alexa oder Co. Stehen, könnte auch Opfer eine „Abhöraktion“ werden – ohne es zu wissen. Der wissenschaftliche Dienst des Deutschen Bundestages kritisiert ausdrücklich, dass Kinder und Jugendliche, aber auch Besucher nicht ausreichend geschützt sind. Im Grunde müssten die Gastgeber dem Besuch beim Betreten der Wohnung sagen: Nur, dass Ihr es wisst – wir haben drei Assistenten im Haus. Bitte verhaltet Euch diskret.

Welche Daten fallen an, wenn die Digitale Assistenten benutzen?

Das muss jedem klar sein, der Digitale Assistenten verwendet: Es fallen deutlich mehr Daten an. Weil wir Alexa, Google, Siri, Cortana noch öfter kontaktieren, noch öfter benutzen. Wann stehen wir auf? Wo sind wir? Welche Geräte verwenden wir? Welche Fragen haben wir? Es lassen sich sogar Rückschlüsse auf unsere Gemütsverfassung ziehen: Welche Musik hören wir uns an? Wir welcher Stimme sprechen wir?

Amazon hat ein Patent darauf, anhand unserer Stimmlage unsere Stimmung zu erkennen. Unsere Verfassung. Kombiniert man das mit den vielen anderen Daten, entsteht eindeutig ein schärferes Profil als ohne Digitale Assistenten. Und auch Hintergrundgeräusche werden wohl künftig genutzt. Das kann dazu führen, dass uns genau die passende Musik oder der richtige Film vorgeschlagen wird – passend zu unserer Stimmung. Aber wer möchte schön, dass ein Amazom oder Google so genauz Besheid weiss?

Bekomme ich als User denn mit, welche Daten anfallen?

Natürlich nicht. Es mangelt völlig an Transparenz. Ich habe auch nur wenig Einfluss darauf, welche Daten gespeichert werden, geschweige, welche Schlüsse daraus gezogen werden. Was aber jeder machen kann: In sein Konto gehen – egal ob bei Amazon, Apple, Microsoft oder Google.

Da gibt es eine Historie mit allen gesprochenen Anweisungen. Die kann man sich anhören. Und hier sind auch Sprachfetzen von Gesprächen zu hören, weil die Assistenten und Lautsprecher auch schon mal auf aktiv schalten, weil sie glauben, ein Schlüsselwort gehört zu haben. Und so kommt es vor, dass vertrauliche Gespräche aufgezeichnet werden. Ein ganz besonders großes Problem. Ist man erst einmal im Konto, kann man einzelne Aufnahmen löschen.

Zum einen gewöhnen wir uns natürlich daran, dass ständig Assistenten zuhören – und wir werden immer unvorsichtiger. Und es wird gnadenlos alles ausgeschlachtet. Amazon hat beispielsweise einen Algorithmus patentiert, der werberelevante Stichworte in der Sprache erkennen soll. Dazu gehören etwa Marken, Produkte, Aktivitäten und positive oder negative Indikatoren („lieben“, „hassen“, „gekauft“, „zurückgeschickt“). Auch wird versucht, zu erkennen, ob es der Benutzer selbst ist, der ein Hotel buchen will, oder womöglich eine andere identifizierbare Person. Diese unbändige Neugier lässt nichts Gutes vermuten.

Fazit

Also fassen wir zusammen, technisch verstehen uns die Geräte noch längst nicht so gut wie man denkt, aber der Hunger nach Daten ist bei den Konzernen extrem groß – sind die Geräte und smarten Lautsprecher denn dann tatsächlich sinnvoll, notwendig oder eher ne technische Spielerei für all die, die sich keine Sorgen um das Datensammeln machen?

Digitale Asssistenten können ohne Zweifel einen Nutzen haben – und praktisch sein. Vor allem für Menschen mit Gebrechen, die nicht so gut tippen können oder die einen Notruf abetzen können müssen. Bedenklich ist aber, wie viele Daten gesammelt werden. Hier braucht es unbedingt mehr Transparenz. Der Gesetzgeber müsste klare Regeln vorgeben, wie solche Assistenten vorgehen dürfen und welche Daten verarbeitet werden dürfen.