Google stellt neue Spamabwehr für Gmail vor
Google hat einen neuen mehrsprachigen Textvektorisierer namens RETVec vorgestellt, der dabei helfen soll, potenziell schädliche Inhalte wie Spam und bösartige E-Mails in Google Mail zu erkennen.
Der „Resilient and Efficient Text Vectorizer“ (RETVec) ist laut Google so trainiert, dass er gegen Manipulationen auf Zeichenebene wie Einfügen, Löschen, Tippfehler, Homoglyphen und mehr resistent ist. Das RETVec-Modell sei zudem auf einem neuartigen Zeichenkodierer trainiert, der alle UTF-8-Zeichen und -Wörter effizient kodieren kann.
Während sich große Plattformen wie Gmail und YouTube auf Textklassifizierungsmodelle verlassen, um Phishing-Angriffe, unangemessene Kommentare und Betrug zu erkennen, sind Bedrohungsakteure dafür bekannt, Gegenstrategien zu entwickeln, um diese Abwehrmaßnahmen zu umgehen.
RETVec, das standardmäßig mit über 100 Sprachen arbeitet, soll dabei helfen, robustere und effizientere serverseitige und geräteinterne Textklassifizierer zu entwickeln. Vektorisierung ist eine Methode in der natürlichen Sprachverarbeitung (NLP), um Wörter oder Phrasen aus dem Vokabular auf eine entsprechende numerische Darstellung abzubilden, um weitere Analysen durchzuführen, wie zum Beispiel Stimmungsanalyse, Textklassifikation und Eigennamenerkennung.
„Aufgrund seiner neuartigen Architektur funktioniert RETVec sofort mit jeder Sprache und allen UTF-8-Zeichen, ohne dass eine Textvorverarbeitung erforderlich ist. Damit ist es der ideale Kandidat für den Einsatz auf Geräten, im Web und für umfangreiche Textklassifizierungen“, so Elie Bursztein und Marina Zhang von Google.
Google gab an, dass die Integration des Vektorisierers in Gmail die Spam-Erkennungsrate um 38 % verbessert und die False-Positive-Rate um 19,4 % reduziert hat. Außerdem wurde die Nutzung der Tensor Processing Unit (TPU) des Modells um 83 % gesenkt.
„Mit RETVec trainierte Modelle weisen aufgrund ihrer kompakten Darstellung eine schnellere Inferenzgeschwindigkeit auf. Kleinere Modelle reduzieren die Rechenkosten und verringern die Latenz, was für groß angelegte Anwendungen und geräteinterne Modelle entscheidend ist“, fügten Bursztein und Zhang hinzu.