Der Spamfilter von Mozilla 1.3
26. März 2003 / von Leonidas / Seite 1 von 2 / Dieser Artikel erscheint gleichzeitig auch auf Hard Tecs 4U.
Mit dem Thema "Spam-Mails" haben wir uns auf diesen Seiten schon ab und zu beschäftigt, da wir schließlich nicht unerheblich selber davon betroffen sind - was aber jedem, der schon eine gewisse Zeit im Web unterwegs ist, völlig ähnlich gehen dürfte. Die letzte wesentliche Meldung unsererseits erfolgte hierzu im Oktober 2002, als wir auf den Test diverser Antispam-Programme seitens der c´t hinwiesen. Damals kristallisierte sich als für alle Mail-Programme und laut den Ergebnissen der c´t auch schlagkräftige Lösung das Programm Mailshield heraus. Wir planten seinerzeit auch einen Dauertest dieses Programms - und bevor wir auf die Antispam-Lösung von Mozilla 1.3 eingehen, wollen wir uns ganz kurz noch dessen Ergebnis ansehen.
Mailshield ist ein extra Programm, welches alle neuen Nachrichten auf dem Mailserver überprüft und gegebenenfalls von dort löschen kann. Es greift allerdings nicht in das normale Mailprogramm ein, funktioniert also komplett unabhängig von diesem. Der Spamfilter von Mailshield funktioniert dabei auf einem Schlüsselwort-Prinzip: Bestimmten Spam-Wörtern ist ein Punktwert zugewiesen, erreicht der Punktwert aller Wörter in einer Mail eine gewisse Grenze, wird diese Mail als Spam deklariert. Punkte gibt es auch für Adressen von bekannten Spammern und andere Dinge, generell alles im Programm ist dabei editierbar, was dem Benutzer durchaus viele Eingriffsmöglichkeiten gibt.
Normalerweise sollte das Programm einen ausführlichen Artikel bekommen, dazu lagen auch ca. 90 in den letzten Monaten aufgenommene Screenshots bereit. Doch im Dauereinsatz offenbarte das am Anfang durchaus beeindruckende Programm immer mehr Schwächen, bis es vor wenigen Tagen sogar völlig die eigentliche Antispam-Funktionalität aufgab, indem es einfach alle ankommenden Mails als Spam deklarierte. Aber auch im funktionierenden Zustand war die Fehlerquote des Programms mit 50 Prozent (Anfang) bis zu noch 25 Prozent (nach mühsamer Feineinstellung) immer noch viel zu hoch.
Mailshield scheiterte letztlich an der Masse an (mit ein wenig Mitdenken durchaus vermeidbaren) Detailfehler. Eine wirkliche Hoffnung, daß sich dies mit zukünftigen Programmversionen verbessern lässt, haben wir allerdings nicht, die Banalität einiger Fehler läßt doch arg an den Programmierern zweifeln. Insofern können wir vom Mailshield-Programm derzeit nur abraten, das manuelle Löschen von ankommenden Spam-Mails im normalen Mailprogramm ist mit Sicherheit sorgenfreier als der Ärger mit diesem "Filter-Programm".
Glücklicherweise veröffentlichten die Macher des alternativen Browsers Mozilla just zu diesem Zeitpunkt, als der Mailshield entgültig seinen Dienst verweigerte, die erste non-Beta-Version des Mozilla-Browsers mit dem lange angekündigten Spam-Schutz laut Paul Graham´s A Plan for Spam.
Das besondere an diesem Konzept ist zum einen die echte Gewichtung von Spam-Wörtern: Anstatt sie wie Mailshield und andere gleichartige Programme mit einem festen Punktwert zu versehen, gewichtet dieser Spamfilter die Wörter in Spam- und normalen Mails nach ihrer Häufigkeit. Das heißt, der grahamsche Ansatz behandelt erst einmal alle Worte in allen Mails - und ordnete diese dann danach, wie häufig sie in Freund- oder Feind-Mails vorkamen. Damit müsste eine Spam-Mail schon in einer allgemeinüblichen Sprache wie eine normale Mail daherkommen, kaum die üblichen Spam-Worte benutzen, kaum auf Vorteile, Gewinnaussichten oder Einblicke unter der Gürtellinie eingehen, um durch diesen Filter zu kommen - für die Spammer eine fast unlösbare Aufgabe.
Der zweite wesentliche Vorteil ist die Lernfähigkeit des Filters. Alle anderen bisherigen starren Filter haben das Problem, daß sich die Spammer im gewöhnlichen immer auf die neuesten Tricks der Programme wieder neu einrichten. Sprich: Klassifiziert Mailshield das Wort "Sex" als Spam-Wort, schreibt der Spammer halt nicht mehr "Sex", sondern einfach "S.e.x". Der Leser versteht es, Mailshield allerdings nicht und lässt es damit durch den Spamfilter. Ein Filter laut Paul Graham auch - aber nur einmal. Denn danach ist das neue Wort erkannt, wird der eigenen Datenbank zugefügt und kann beim nächsten Versuch mit diesem Wort einwandfrei erkannt werden.
Zudem schützt die generelle Analyse der gesamten Mail und nicht nur von einzelnen Schlüsselworten wie beim Mailshield den Anwender bei einem grahamschen Mailfilter auch dann, wenn das Wort "S.e.x" dem Filter noch nicht bekannt wird: Da der restliche Text einer solchen Spam-Mail in den meisten Fällen einen ebenso zweifelhaften Charakter besitzt, lässt sich ein grahamscher Mailfilter auch von einzelnen unbekannten Worten nicht aus der Ruhe bringen. Der Filter lernt also mit der Zeit alle neuen Tricks der Spammer - und im Idealfall sogar ganz automatisch ohne Benutzereingriff.
Vom Ansatz her ist also ein Filter laut Paul Graham eine höchst interessante Sache - die Frage ist nur, wie gut dieser in der Realität funktioniert und wie gut die Umsetzung in Mozilla ist. Wir haben uns jedenfalls die deutsche Version von Mozilla 1.3 heruntergeladen (12 MB, gezippt, benötigt keine Installation), dem bekannten alternativen Browser liegt immer das gleichnamige integrierte Mailprogramm mit bei. Die Übernahme der vorhandenen User-Daten (Bookmarks, Einstellungen, Mailadresen & Mails) der zuvor installierten Mozilla-Version 1.1 funktionierte einwandfrei. Zu den Möglichkeiten des Imports von Mails aus Outlook und Outlook Express können wir allerdings nichts sagen, da wir diese Programme nicht kennen. Die IE-Favoriten werden aber automatisch übernommen, ebenso soll der Import des Windows-Adressbuches problemlos sein.
Die einzige augenscheinliche Veränderung war ein Junk-Button in der Symbolleiste des Mozilla-Mailprogramms, sowie ein extra Junk-Ordner in den persönlichen Mailordnern. In der Navigationsleiste unter "Tools" findet sich dann ein Control Panel für die "Junk-Mail Filterung":
Viel zu verändern gibt es hier nicht, im Prinzip ist alles mit den default-Settings schon vernünftig eingestellt.