Stichprobenartig hören Menschen aus Fleisch und Blut in ausgewählte Gesprächsfetzen hinein, die Digitale Assistenten wie Siri, Alexa, Cortana oder Google Assistant nicht verstanden haben. Um die Qualität zu verbessern. Das Problem: Die meisten User ahnen nichts davon – und es macht einen Unterschied, ob Menschen oder Maschinen mithören. Apple hat die Praxis jetzt erst mal gestoppt.
Heute schon ein paar Worte mit Alexa, Cortana, Google Assistant oder Siri gewechselt? Den meisten ist gar nicht klar, was passiert, nachdem das Schlüsselwort („Alexa“, „Google“, „Siri“) gefallen ist. Die Geräte stellen blitzschnell eine Online-Verbindung zu den Servern des jeweiligen Anbieters her, übertragen das Gesagte und warten auf die Auswertung durch die KI-Software. Das geschieht in der Regel derart schnell, dass die Menschen denken, das Smartphone oder die Box hätte den Job erledigt. Ist aber nicht so.
Echte Menschen hören Gespräche ab
Doch nicht immer „verstehen“ die Algorithmen, was gesagt wurde. Unter anderem auch deshalb, weil häufig versehentlich Sprachfetzen übertragen werden, die gar nicht für den Assistenten gedacht waren. Dann gehen einzelne Wörter oder Sätze an die Server – obwohl das Schlüsselwort nicht gefallen ist.
Von Amazon, Apple und Google wissen wir, dass sich deshalb echte Menschen aus Fleisch und Blut einige dieser Sprachfetzen anhören – und analysieren, warum die Algorithmen das nicht verstanden haben. Sie schreiben Protokolle, was gesagt wurde. So soll das „Verstehen“ verbessert werden, indem unterschiedliche Aussprachen und Dialekte trainiert werden.
Das Problem: Die User wissen nichts davon – sie wurden auch nicht wirklich gefragt. Denn wenn eine Maschine zuhört, ist das eine Sache. Wenn echte Menschen etwas anhören, was ich gesagt habe – auch wenn ich sie nicht kenne und die Gesprächsfetzen angeblich anonymisiert untersucht werden -, so hat das doch eine ganz andere Qualität. Den meisten Menschen ist das schlichtweg unangenehm. Verständlicherweise.
User müssen besser informiert werden
Google hat deshalb schon im Juli das Abhören von Sprachdateien beim Google Assistant in Europa ausgesetzt. Jetzt hat auch Apple nachgezogen – und verzichtet vorerst ebenfalls darauf, Anweisungen oder Gespräche von echten Menschen analysieren zu lassen. Allerdings nur, weil Siri-User davon nichts wissen. Künftig sollen sie besser informiert und um Erlaubnis gebeten werden. Das ist natürlich eine enorme Verbesserung der Situation.
Was auch geklärt werden müsste: Was bedeutet es konkret, wenn Unternehmen wie Amazon, Apple, Google und Microsoft behaupten, die Daten würden anonymisiert, bevor sie von Menschen ausgewertet werden? Ist das wirklich zuverlässig? Außerdem: Wer wertet die Gesprächsfetzen aus? Die meisten Unternehmen lassen nicht nur eigene Mitarbeiter ran, sondern auch Mitarbeiter in externen Unternehmen – was ein zusätzliches Sicherheitsproblem darstellt.
Darüber hinaus hilft alle Anonymisierung nichts, wenn sich anhand der aufgezeichneten Gesprächsfetzen ableiten lässt, wer da mit wem spricht – und worüber. Das ist in Einzelfällen durchaus möglich.
Es gibt also viele gute Gründe, die Sprachassistenten (auch) kritisch zu sehen.