Skip to content

Kommentarspammer lernen textile

Hier im Blog verwende ich ja textile zur Formatierung von Texten. Zum einen im Editor in dem ich diesen Artikel jetzt schreibe, zum anderen kann man darüber auch seine Kommentare formatieren und z.B. auch klickbare Links setzen.

Den Hinweis hat kaum ein Kommentator überhaupt wahrgenommen, auch Spammer nicht. Letzte Nacht schlug aber hier ein Spammer auf, der gezielt nach dem Hinweis gesucht hat und auch die Anleitung gelesen hat.
Erst ein zaghafter Versuch:

wird dieser Link zur Arbeit zu gehen? “ask”:http://www.google.com/

Und anschliessend ein regulärer Spamkommentar:

“Das ist eine wirklich geniale Kombination, kann man wirklich Durchsuchen Sie die Webseite in Ruhe (ausprobieren!) Und versuchen Sie herauszufinden, was Sie, bevor Sie nur für die Installation realisieren wollen. Und wenn es Ihnen passt rufen Sie die App auf dem Handy installiert und das Zeug Sie gefunden. “

dies zeigt wirklich die Bequemlichkeit der wie Anwendungen sind gut geeignet, um das Telefon, dass auf es installiert sind. “essay papers”: http:// www . bestessays . com/

(Der Link war korrekt formatiert, ich hab ihn für dieses Bespiel manipuliert)

Beide Male kam er über eine gezielte Suche nach textile bei google, vermutlich sind alle darüber zu findenen Blogs betroffen.
Der Kommentator hat jeweils das URL-Feld leer gelassen, dort landet normalerweise der URL der verbreitet werden soll. Das funktioniert nämlich praktisch immer, auch dann wenn Links in den Kommentaren selbst nicht möglich sind — und werden natürlich auch besonders von Anti-Spam Filtern überwacht. Der Kommentator hat das Feld also leer gelassen um am Filter vorbeizukommen, der Link ist ja im eigentlichen Kommentar schon enthalten.

Das nutzt aber zumindest bei Serendipity nichts: Die URL-Filter kopiert man einfach in das Feld für den Inhalt und schon schlägt er genauso zu. Und der Bayes Spamschutz tut sein Übriges…

Fotoprojekt: zwölf2010 - September

FlensburgFoto

Hier das September Foto für Janas Fotoprojekt zwölf2010:

Zwölf 2010 Foto vom September
(Die Ansicht hier ist komprimiert und verkleinert, ein Klick drauf lädt die große Version)

Sonnenschein, Schäfchenwolken ziehen vorbei und gut 20°C — ein herrlicher Septembertag. So mag ich das Wetter smile


Die Bilder aller Monate kannst Du über das Tag zwoelf2010 und hier als Übersicht erreichen.

Blogfaul

Ich stelle mit Erschrecken fest dass ich knapp eine Woche nichts mehr geschrieben habe :’(

Das dürfte sich jetzt aber wieder bessern, hab meine Muse wieder laugh

Fotoprojekt: zwölf2010 - August

FlensburgFoto

Mit einer Woche Verspätung (letztes Wochenende war ich verhindert) das August Foto für Janas Fotoprojekt zwölf2010:

Projekt zwölf2010 - august
(Die Ansicht hier ist komprimiert und verkleinert, ein Klick drauf lädt die große Version)

Eine richtige Wildnis ist da entstanden. War leider grad kein Mensch für den Größenverlgeich da, aber Abseits des Weges in der Bildmitte sind die Pflanzen so bestimmt 1,5 Meter hoch. Man sieht den Lautrupsbach kaum noch eek


Die Bilder aller Monate kannst Du über das Tag zwoelf2010 und hier als Übersicht erreichen.

Morgen ist Nordblog!

Flensburg

Ehe ich es vergesse:

Morgen ist Nordblog!

Das bedeutet ein lockeres Treffen von Blogger, Twitterern, Kommentatoren und Lesern — also DIR!

Und zwar am Mittwoch, 4. August ab 19:30 Uhr in der Hansens Brauerei in Flensburg.
Wer mag kann sich über dieses Doodleding anmelden. Wichtiger ist aber dass Du vorbeikommst.

Wir seh’n uns!

Piwik 0.6.4: hübsches Datenmonster

PiwikGestern ist Version 0.6.4 von Piwik erschienen, der Webseitenstatistik die ich seit Anfang des Jahres auch hier verwende.

Die erste und auffälligste Änderung ist ein neues Design. Das ist auch echt nett geworden.
Der von Christian angekündigte Fehler ist auch bei mir aufgetreten, der Bugfix hat aber auch hier funktioniert. Tipp: einfach die Revision 2620 der AssetManager.php komplett neu herunterladen, das erspart das manuelle patchen.

Auch die neue Version funktioniert gewohnt unauffällig und die neue Optik sieht wirklich gut aus. Die Statistiken des Blogs sind öffentlich unter stats.stdlw.de/piwik/ einsehbar — ist doch wirklich gelungen.Piwik Dashboard

Was ich aber dringend vermisse ist ein Feature das erst auf die Version 1 geschoben wurde: Das löschen alter Daten! Die Daten werden für die Statistiken eh aggregiert, es besteht auch keinen Grund jeden einzelnen Zugriff, das meint jedes Seitenelelment, auf ewig vorzuhalten. Das ist unnötiger Ballast der nur die Datenbank verklumpt.

In Zahlen:
· 1545 Blogbeiträge seit 2004 belegen 29MB in der Datenbank.
· Piwiki hat seit Ende Januar 932MB an Daten gesammelt. — Knapp 1 Gigabyte!

Und leider weiss ich nicht welche Daten ich gefahrlos löschen kann. Die Daten werden für die Statistik aggregiert, die alten Logs sind also theoretisch nicht mehr nötig. Ich weiss aber nicht, ob und wann doch noch auf die Rohdaten zugegriffen wird.

Piwik ist eine echt schönes Tool und ich finde es wesentlich sauberer die Auswertung lokal durchzuführen als dass eine zentrale Stelle wie Google die Daten von millionen Webseiten zusammenführen kann.
Aber die Datenbankgröße muss dringend behoben werden. normal

Kommentieren ohne CAPTCHA: Zwischenbilanz

Knapp 4 Wochen nach Beginn meines Tests ist es Zeit für eine Zwischenbilanz:

Ohne CAPTCHAs, nur mit dem Bayes-Plugin kommt fast kein Spam durch. Es gab eine Handvoll die durchkamen und angelernt wurden, ebenso gab es 2 oder 3 richtige Kommentare die fälschlicherweise gefiltert wurden und auch als Ham angelernt wurden.
3 IPs (keine Dial-In IPs) habe ich über die .htaccess direkt ausgesperrt, von dort kam sehr viel Spam auf einmal.

So gesehen ist es kein Problem auf die CAPTCHAs zu verzichten.
Die erkannten Kommentare lasse ich nur moderieren, so kann ich falsch erkannte Kommentare anlernen und freigeben, ebenso kann ich die erkannten als Spam markieren und den Filter damit bestätigen.

Da es aber 10-20, teils auch doppelt so viele Kommentare sind die täglich abgefangen werden und zur Sicherheit durchgesehen werden müssen habe ich mich dazu entschlossen die CAPTCHAs für ältere Kommentare wieder zu aktivieren. Die Spamkommentare kommen nämlich fast alle für Beiträge die schon älter sind. Für den Anfang habe ich die CAPTCHAs für Kommentare die 30 Tage und älter sind wieder aktiviert. Das müsste einen Großteil der Spammer abfangen und ermöglicht freies kommentieren bei neueren Beiträgen.

Das scheint mir als Kompromiss geeignet, zumal die einfachen CAPTCHAs von Serendipity nicht sehr anstrengend sind. Was bei Textbrowsern und Braillezeilen natürlich dennoch nicht hilft. Ein Kompromiss halt.