Diese KI kann anhand des Tons erkennen, was Sie eingeben

Blog

HeimHeim / Blog / Diese KI kann anhand des Tons erkennen, was Sie eingeben

Aug 11, 2023

Diese KI kann anhand des Tons erkennen, was Sie eingeben

Dieser Artikel ist Teil unserer exklusiven IEEE Journal Watch-Reihe in Zusammenarbeit mit IEEE Xplore. Demnach können die von Ihnen eingegebenen Nachrichten allein durch das Klopfen Ihrer Finger auf die Tasten entschlüsselt werden

Dieser Artikel ist Teil unserer exklusiven IEEE Journal Watch-Reihe in Zusammenarbeit mit IEEE Xplore.

Laut einer aktuellen Arbeit von Forschern der Universitäten Durham und Surrey sowie der University of London können die von Ihnen eingegebenen Nachrichten allein aus dem Geräusch Ihrer Finger, die auf die Tasten tippen, entschlüsselt werden.

Die Forscher trainierten zwei maschinelle Lernmodelle, um die charakteristischen Klicks jeder Taste auf einer Apple-Laptop-Tastatur zu erkennen. Die Modelle wurden mit Audiodaten trainiert, die aus zwei Quellen stammten: einem in der Nähe platzierten Smartphone und einem über Zoom geführten Videoanruf. Sie geben eine Genauigkeit von 95 Prozent für das Smartphone-Audiomodell und 93 Prozent für das Zoom-Anrufmodell an.

Diese Modelle könnten einen sogenannten akustischen Seitenkanalangriff ermöglichen. Während die in diesem Artikel vorgestellte Technik auf modernen Techniken des maschinellen Lernens basiert, gehen solche Angriffe mindestens auf die 1950er Jahre zurück, als britische Geheimdienste heimlich mechanische Verschlüsselungsgeräte der ägyptischen Regierung aufzeichneten.

Ein akustischer Seitenkanalangriff eines Laptops schätzt aus Audioaufnahmen einer Person, die ihn verwendet, ab, welche Tasten in welcher Reihenfolge gedrückt wurden. Durch diese Angriffe können vertrauliche Informationen des Benutzers preisgegeben werden, etwa Bank-PINs, Kontokennwörter oder Anmeldeinformationen der Regierung.

Die Modelle des Teams basieren auf Faltungs-Neuronalen Netzen (CNNs). So wie solche Netzwerke Gesichter in einer Menschenmenge erkennen können, können sie auch Muster in einem Spektrogramm, dem Diagramm eines Audiosignals, erkennen. Das Programm isoliert den Ton jedes Tastendrucks, wandelt seine Wellenform in ein Spektrogramm um, extrahiert daraus die Frequenzmuster jedes Klicks und berechnet die relative Wahrscheinlichkeit, dass eine bestimmte Taste gedrückt wurde.

„Wir betrachteten die akustischen Daten als Bild für CNN“, sagt Ehsan Toreini, Mitautor des Berichts. „Ich denke, das ist der Hauptgrund, warum unsere Methode so gut funktioniert.“

Ein akustischer Seitenkanalangriff basiert auf Schätzungen darüber, welche Tasten in welcher Reihenfolge gedrückt wurden, um sensible Informationen zu rekonstruieren.

Der im Papier vorgestellte Angriff ist in seinem Umfang begrenzt. Die beiden Audiodekodierungsmodelle wurden anhand von Daten trainiert und ausgewertet, die von demselben Benutzer bei der Eingabe auf einem einzelnen Laptop gesammelt wurden. Außerdem erfordert der von ihnen verwendete Trainingsprozess, dass Tastentöne mit Tastenbezeichnungen gepaart werden. Es bleibt abzuwarten, wie effektiv dieser Angriff wäre, wenn er auf andere Laptop-Modelle in anderen Audioumgebungen und mit anderen Benutzern angewendet würde. Darüber hinaus schränkt der Bedarf an gekennzeichneten Trainingsdaten die Einsatzmöglichkeiten des Modells ein.

Dennoch gibt es plausible Szenarien, in denen ein Angreifer Zugriff auf gekennzeichnete Audiodaten einer tippenden Person hätte. Obwohl es schwierig sein kann, diese Daten heimlich zu sammeln, könnte eine Person dazu gezwungen werden, sie bereitzustellen. In einem aktuellen Interview im Podcast „Smashing Security“ beschreiben Toreini und Co-Autorin Maryam Mehrnezhad ein hypothetisches Szenario, in dem ein Unternehmen von neuen Mitarbeitern verlangt, diese Daten bereitzustellen, damit sie später überwacht werden können. In einem Interview mit IEEE Spectrum sagte Mehrnezhad: „Ein weiteres Beispiel wäre Gewalt in der Partnerschaft.“ Ein Ex-Partner oder aktueller Partner könnte in diesem Szenario ein schlechter Akteur sein.“

Das Forschungsteam stellt mehrere Möglichkeiten vor, um die Risiken dieses Angriffs zu mindern. Zum einen könnten Sie einfach schnell tippen: Touch-Typing kann einzelne Tastendrücke vermischen und die Isolierung und Dekodierung von Tastenanschlägen erschweren. Auch systemische Veränderungen würden helfen. Videoanrufdienste wie Zoom könnten Audiorauschen oder Verzerrungsprofile in Aufzeichnungen einbringen, die maschinelle Lernmodelle daran hindern würden, den Ton einfach den eingegebenen Zeichen zuzuordnen.

„Die Cybersicherheits- und Datenschutz-Community sollte sicherere und die Privatsphäre schützende Lösungen entwickeln, die es den Menschen ermöglichen, moderne Technologien ohne Risiko und Angst zu nutzen“, sagt Mehrnezhad. „Wir glauben, dass es für Industrie und politische Entscheidungsträger Raum gibt, bessere Lösungen zum Schutz des Benutzers in verschiedenen Kontexten und Anwendungen zu finden.“

Die Forscher stellten ihr Papier kürzlich auf dem IEEE European Symposium on Security and Privacy Workshops 2023 vor.