Alexa, Siri & Co.: Neue Erkenntnisse zum Lauschverhalten von Sprachassistenten

Geschrieben von Kemal Webersohn, veröffentlicht am 01.07.2020

Smarte Lautsprecher, auch Sprachassistenten genannt, werden von den Herstellern als hilfreiche Ergänzung für den häuslichen Alltag beworben. Versprochen wird, dass die Spracherkennung erst dann aktiviert wird, wenn der Nutzer dies durch einen bestimmten Sprachbefehl auslöst. Doch Recherchen des NDR-Formats „STRG_F“ und der Süddeutschen Zeitung zeigen, dass die Spracherkennung häufig unbeabsichtigt aktiviert wird und auf diese Weise private Gespräche aufgezeichnet werden.

Funktionsweise der Spracherkennung

Den sieben Mikrofonen, mit denen etwa Amazons Sprachassistent „Echo“ in den Raum horcht, entgeht fast nichts. Die Aufnahme soll aber erst dann beginnen, wenn etwa mit „Alexa“ der entsprechende Sprachbefehl erteilt wird. Dann zeigt „Echo“ mit seinem blauen Ring, das er zuhört, dreht die Lautstärke herunter, nimmt alles auf und schickt die Aufzeichnung an einen Server von Amazon. Erst dort wird entschlüsselt, was eigentlich genau gesagt wurde und die passende Antwort an „Echo“ geschickt. Ohne Internet versteht Alexa also nur Bahnhof.

Ehemalige Mitarbeiter berichten

Um festzustellen, ob die Spracherkennung fehlerfrei funktioniert, ließen einige Hersteller auch durch Mitarbeiter von Unterauftragnehmern Sprachaufzeichnungen analysieren. Über diese Praxis bei Google berichtete bereits 2019 der belgische Rundfunksender VRT. Dem Sender wurden mehr als 1.000 Gesprächsmitschnitte zugespielt, die von Vertragsarbeitern transkribiert werden sollten. Drei ehemalige Beschäftigte von Firmen, die für Apple und Amazon solche Aufnahmen überprüft haben, berichten von abgelauschten Gesprächen mit medizinischem Personal, Geschäftsbesprechungen und aufgezeichneten Streits und Sex. Ähnliches hatte die US-Nachrichtenagentur “Bloomberg” bereits im April 2019 bei Amazon aufgedeckt.

Lauschen – auch ohne Sprachbefehl

Eine Forschergruppe der Ruhr-Universität Bochum und des Bochumer Max-Planck-Instituts für Sicherheit und Privatsphäre hat nun insgesamt elf Smart Speaker untersucht: Modelle von Apple, Google, Amazon, Microsoft, der Telekom und den chinesischen Firmen Xiaomi, Tencent und Baidu. Die Geräte beschallten sie mehr als 16 Tage lang mit englischsprachigen TV-Serien, Nachrichten sowie speziellen Tondatenbanken und registrierten dabei rund 735 fehlerhafte Auslöser. Nach zusätzlichen sieben Tagen deutschsprachiger Sendungen wurden die Geräte rund 180 Mal fälschlicherweise aktiviert.

Johannes Caspar, Landesdatenschutzbeauftragter in Hamburg fordert, dass die Unternehmen von sich aus auf dieses Problem aufmerksam machen. “Man muss vom Hersteller erwarten, dass er die Verbraucher im datenschutzrechtlichen Sinne aufklärt und darauf hinweist, dass es eben ein entsprechendes Risiko der Privatsphäre ist”. Das könne etwa über entsprechende Label oder Hinweise auf der Verpackung geschehen. Er setzt aber auch darauf, dass die Systeme mit der Zeit besser und ungewollte Aktivierungen seltener werden. “Künstliche Intelligenz lernt aus Fehlern”, so Caspar.

Das sagen die Hersteller

Auf Anfrage zu den Ergebnissen teilte Google mit, dass man derzeit keine Auswertung der Aufzeichnungen durch Mitarbeiter erfolge. In Zukunft will das Unternehmen aber wieder Menschen einsetzen, um die Sprachtechnologie zu verbessern. Die Nutzerinnen und Nutzer müssten sich dann aktiv dafür entscheiden, teilte das Unternehmen auf Anfrage mit. Grundsätzlich arbeite Google ständig daran, die Erkennungstechnologie für die Aktivierungswörter zu verbessern. Zudem könnten Nutzerinnen und Nutzer Aufnahmen löschen lassen, wenn sie erkennen, dass sich das Gerät unbeabsichtigt eingeschaltet hat.

Apple hat auf konkreten Fragen nicht geantwortet, sondern lediglich auf eine Stellungnahme vom September 2019 verwiesen. Darin heißt es, alle Daten von Siri würden unter einer zufälligen Kennung verarbeitet und nicht mit der Apple-ID oder der Telefonnummer verknüpft. Standardmäßig speichere das Unternehmen keine Audioaufzeichnungen mehr. Nutzer könnten dem aber aktiv zustimmen, um zu “einer Verbesserung” beizutragen. Die Aufnahmen bekämen dann “ausschließlich Apple-Mitarbeiter” zu hören, jede unbeabsichtigte Aufzeichnung solle gelöscht werden.

Amazon schrieb, die Erkennung des Aktivierungswortes und die Spracherkennung würden sich täglich verbessern und man investiere “weiterhin in die Verbesserung der entsprechenden Technologien”. Ein kleiner “Bruchteil von einem Prozent der Alexa-Anfragen” werde durch Mitarbeiter bearbeitet. Die Aufnahmen seien dabei nicht mit Kundendaten verknüpft und nur eine begrenzte Anzahl von Mitarbeitern habe Zugriff. Anders als bei Google und Apple müssen Kunden dem aber nicht aktiv zustimmen. Sie haben aber die Möglichkeit, der Nutzung der Sprachaufzeichnungen zu widersprechen, so Amazon.

Microsoft hat auf die Anfrage nicht geantwortet. Der Softwarekonzern hat sein Spracherkennungssystem für Smart Speaker mittlerweile eingestellt. Xiaomi antwortete als einziger chinesischer Hersteller auf eine Anfrage und erklärte, dass die Geräte nicht für deutsch- oder englischsprachige Umgebungen optimiert seien. Alle der getesteten Sprachassistenten aus China werden offiziell nicht nach Europa verkauft.

Datenschutzeinstellungen

Was an Sprachaufnahmen auf Amazons Servern liegt, lässt sich recht schnell in Erfahrung bringen, denn sämtliche Aufnahmen stehen dem Nutzer zur Verfügung. Öffnen Sie dazu die Alexa-App auf Ihrem Smartphone. Tippen Sie oben links auf das Symbol mit den drei Strichen, dann auf “Einstellungen”, “Alexa-Konto” und schließlich “Historie”. Hier finden Sie sämtliche Aufnahmen, die Amazons Server verarbeitet haben. Selbst die, bei denen nichts verstanden wurde. Geht man die Aufzeichnungen durch, sind neben den Befehlen meist höchstens Gesprächsfetzen oder das Fernsehprogramm zu hören. Wer private Aufnahmen entdeckt, kann sie dann an Ort und Stelle löschen.

Wer seine bisherigen von Google aufgezeichneten Sprachaufnahmen anhören will, ruft diese Seite auf. Löschen lassen sich die Aufnahmen direkt im Google-Konto in der Rubrik “Daten & Personalisierung” unter “Meine Aktivitäten”, dann weiter auf “Sprach- und Audioaktivitäten”.

Fazit

Als Amazon im Herbst 2014 seinen Sprachassistenten vorstellte, war die Reaktion überall die gleiche: Wer bitte stellt sich eine Wanze ins Wohnzimmer? Dennoch wurden die smarten Lautsprecher populär. Mehr als 100 Millionen Geräte sollen weltweit im Einsatz sein. In einem Blogbeitrag schreibt Google, dass 0.2 Prozent aller Aufzeichnungen (also jede 500.) durch Sprachexperten überprüft würden – ähnliches dürfte auch für die anderen Hersteller gelten. Dabei wird immer wieder auf eine angebliche Anonymisierung der Sprachaufnahmen hingewiesen.

Ganz so einfach ist es in der Praxis aber offenbar nicht. Denn ein Reporter des belgischen Senders VRT gelang es, gleich mehrere Nutzer anhand der Soundschnipsel zu identifizieren und aufzusuchen, weil diese in Gesprächen persönliche Angaben wie etwa Adressen nannten.