Sprachassistenten wie Alexa reagieren oft auf falsch Weckwörter (Bild: Amazon)

Das sogenannte "Fake-Wake-Phänomen" führt bei gängigen Sprachassistenten dazu, ein abweichendes Wort als eigenes "Weckwort" zu erkennen und auf vermeintliche Kommandos zu hören. Warum es zur Akzeptanz solcher "falscher Weckwörter" kommt, hat nun ein Forschungsteam der chinesischen Zhejiang Universität in Hangzhou sowie Forschende des System Security Lab der TU Darmstadt unter Leitung von Professor Ahmad-Reza Sadeghi im Rahmen eines gemeinsamen Projektes untersucht.

Die Ergebnisse liefern wertvolle Hinweise, wie die Privatsphäre der Nutzenden stärker geschützt werden und Hersteller ihre Sprachassistenten sicherer machen können. Untersucht wurden die acht beliebtesten englischen und chinesischen Sprachassistenten im Hinblick auf das Fake-Wake-Phänomen.

Typischerweise hören Sprachassistenten aktiv die Umgebung nach ihren systemeigenen Weckwörtern wie "Alexa", "OK Google" oder ihren Markennamen ab, die sie aktivieren. Beim Fake-Wake-Phänomen erkennt der Sprachassistent falsche Weckworte, sogenannte „Fuzzy-Wörter“, z.B. aus Gesprächen oder Fernsehsendungen. Diese falsch erkannten Wörter kann ein Angreifer nutzen, um Sprachassistenten zu aktivieren, ohne die Nutzenden dabei zu alarmieren. Bisher konzentrierte sich die Forschung auf diese Quellen des Fake-Wake-Phänomens.

Dem Team um Prof. Wenyuan Xu, Dr. Yanjiao Chen und Prof. Sadeghi ist es nun erstmals gelungen, systematisch und automatisch eigene falsche Weckwörter zu generieren statt Audiomaterial zu durchsuchen. Die Erzeugung der Fuzzy-Wörter begann mit einem bekannten Anfangswort wie "Alexa". Dabei hatten die Forschenden weder Zugriff auf das Modell, das die Weckwörter erkennt, noch auf den Wortschatz, der dem Sprachassistenten zugrunde liegt. Sie gingen auch der Frage nach, welche Ursachen zur Akzeptanz falscher Weckwörter führen.

Zunächst wurden die Merkmale ermittelt, die am häufigsten zur Akzeptanz der Fuzzy-Wörter beigetragen haben. Die entscheidenden Faktoren konzentrierten sich lediglich auf einen kleinen phonetischen Ausschnitt des Wortes. Aber auch falsche Wörter, die sich deutlich stärker von den echten Weckwörtern unterscheiden, konnten die Sprachassistenten aktivieren. Dabei spielten etwa Umgebungsgeräusche, die Lautstärke der Wörter sowie das Geschlecht des oder der Sprechenden kaum eine Rolle.

So konnten mit Hilfe genetischer Algorithmen und maschinellen Lernens mehr als 960 eigene Fuzzy-Wörter in Englisch und Chinesisch erzeugt werden, die den "Weckwortdetektor" der Sprachassistenten aktiviert haben. Dies zeigt einerseits die Schwere des Fake-Wake-Phänomens und liefert andererseits die Grundlage für tiefere Einblicke in dessen Ursachen.

Das Phänomen kann abgeschwächt werden, indem der Weckwortdetektor mit den erzeugten Fuzzy-Wörtern neu trainiert wird. Dadurch kann der Sprachassistent genauer zwischen falschen und echten Weckwörtern unterscheiden. Auch Hersteller können mit den generierten Fuzzy-Wörtern vorhandene Modelle neu trainieren, um sie präziser und weniger angreifbar zu machen. Damit bieten die Forschungsergebnisse einen vielversprechenden Weg, um Datenschutz- und Sicherheitsprobleme in Sprachassistenten zu identifizieren, zu verstehen und zu entschärfen.