Skip to content

Bayes Spamschutz in Serendipity

Jahrelang reichten mir relativ lasche Spamfilter Einstellungen hier im Blog. Bei Trackbacks fängt eine Backlink Prüfung alle Spamkommentare (etwa 200 pro Tag) ab; einfache CAPTCHAs ab dem zweiten Tag reichten für Kommentare.

Seit letzter Woche kommen aber täglich etwa ein Dutzend Spamkommentare rein. Standardtexte, offenbar von Menschen als Kommentar ins Blog gesetzt. Die CAPTCHAs sind da keine Hürde. Stärkere CAPTCHAs gar etwas wie ReCAPTCHA falls es doch gut getarnte Automaten sind möchte ich nicht einsetzen, denn darüber ärgere ich mich als Kommentator selbst regelmässig.

Serendipity hat da zum Glück eine andere Alternative: Lernfähige Bayes Filter wie man sie auch vom Spamfilter im E-Mail Programm kennt.
Das Plugin “Spamschutz (Bayes)” analysiert den Kommentar und berechnet eine Wahrscheinlichkeit ob es Spam ist. Ist diese zu hoch wird der Kommentar entweder gelöscht oder kommt in die Moderationsschleife.
In der Administrationsoberfläche sieht das dann so aus:

Spamkommentar im Bayes Filter von Serendipity

Mit den beiden Links “Valid” und “Spam” kann man jeden Kommentar von Hand klassifizieren und den Filter anlernen.
Die Erkennungsrate war aber auch ohne individuelles anlernen über 90%. Ich hatte nur einen Kommentar der ihm entwischt ist und keine falsche Einstufung als Spam.
Ich lasse ihn aber die Kommentare dennoch “nur” moderieren, zumindest solange die Zahl der Spamkommentare nicht so hoch wird dass ich mit dem Kontrollieren nicht mehr hinterherkomme. Jeder echte Kommentar der dadurch verloren ginge ist mehr Wert als das tägliche Überfliegen der Spamkommentare.

Das Plugin Spamschutz (Bayes) ist wie üblich bei Spartacus zu finden bzw. mit aktivem Spartacus-Plugin mit einem Klick installiert.

Google Analytics rausgeworfen

Ich hatte es angekündigt, nun habe ich es vollzogen: Die Statistiken sind auf Piwik umgestellt und Google Analytics ist rausgeflogen.

Die Daten die ich bekomme sind im Prinzip gleich, die Auswertung erfolgt aber jetzt hier auf dem Server und nicht mehr zentral mit millionen Seiten zusammen bei Google.

Meine Piwik Installation ist zudem wie hier beschrieben verändert, so dass keine IP Adressen gespeichert werden.
Die Statistiken sind unter stats.stdlw.de/piwik/ frei einsehbar, mehr kann ich auch nicht sehen. Bzw. bei dem nur lesenden Zugriff sind alle IP Adressen ausgeblendet, die sehe ich durch den Patch aber auch nicht, es wird für alle Besucher die 0.0.0.0 gespeichert. Dinge wie die Geographische Lokalisierung Schätzung funktionieren weiterhin weil die Speicherung ganz zum Schluss erfolgt. Es lässt sich so aber nichts mehr zu einem konkreten Besuch zuordnen.

Tipp für Android Nutzer: der “Web Analytic Client” macht die Statistiken auch auf dem Mobiltelefon zugänglich. Ich hatte ihn in Folge 13 meiner Wochenendlichen Andoird Vorstellung vorgestellt.

Fotoprojekt: zwölf2010 - Februar

Foto

Hier mein Februar-Beitrag zu Janas Fotoprojekt zwölf2010.
Da ich noch auf der Nachzüglerliste stehe sind meine Fotos noch nicht auf ihrer Übersichtsseite zu finden, Du kannst hier aber alle Monate über das Tag zwoelf2010 abrufen. Auch wenn es bisher erst zwei sind wink

Hier das Februarbild:

(Die Ansicht hier ist komprimiert und verkleinert, ein Klick drauf lädt die große Version)

Entgegen meiner Erwartung ist es im Vergleich zum Januarbild sogar noch verschneiter geworden.

Im Märzbild will ich nun aber wirklich etwas Grün sehen! tongue

Phantasieartikel

Vorhin hatte ich eine Idee für einen ganz tollen Blogartikel.

Ist mir aber entfallen. Ich such ihn noch.

In der Zwischenzeit denk Dir einfach einen aus. Um Deine Fantasie auf die richtige Spur zu bringen kann ich Dir noch mitgeben, dass er fürchterlich spannend und interessant war. Und vielleicht hatte er etwas mit dem Winter zu tun. Vielleicht auch nicht eek

Piwik statt Google Analytics

Auf dem neuen Webspace konnte ich nun auch Piwik installieren das mir schon mehrfach empfohlen wurde.

Piwik analysiert die Zugriffe auf Webseiten, also die Anzahl, die Herkunft, die Browser, Auflösung und hastenichgesehn.
Vergleichbar mit google analytics, aber lokal installiert.

Kostenlos sind beide, Piwik hat aber den Vorteil, dass die Daten lokal auf dem eigenen Server bleiben und nicht zentral bei google erfasst werden. Da google dadurch nicht nur Deinen Besuch hier sondern auch beim Buchhandel und Erotikshop Deines Vertrauens erfasst und dies miteinander verknüpft steht der Dienst nachvollziehbar in der
Kritik. Die “Datenschutzrechtliche Bewertung des Einsatzes von Google Analytics” des Unabhängigen Landeszentrums für Datenschutz Schleswig-Holsteins (PDF) schliesst mit den Worten

Der Einsatz der kostenlos angebotenen Version des Google Analytics Services ist aus den
genannten Gründen derzeit datenschutzrechtlich unzulässig. Die Aufsichtsbehörden des
Bundes und der Länder stehen mit der Google Germany GmbH im Gespräch, um einen
rechtskonformen Einsatz dieses Dienstes zu ermöglichen.

Meine paar Seiten hier sind nun nicht der gesellschaftliche Brennpunkt, aber es ist ein (sehr) winziges Rädchen im Getriebe.
Nachdem ich nun Piwik installieren und begutachten konnte muss ich feststellen, dass es google Analytics nicht nachsteht. Ich finde vor allem das Dashboard sogar übersichtlicher.
Ich habe Piwik ausserdem wie bei André Bräkling beschrieben so modifiziert dass keine IP Adressen gespeichert werden. Mit der Änderung wird für jeden Besuch die 0.0.0.0 gespeichert. Die IP interessiert mich sowieso nicht und Piwik benötigt sie nicht für die Arbeit.
Die Entscheidung ist für mich gefallen: Ich werde beide Analysen noch bis etwa Anfang Februar parallel laufen lassen um eine Vergleichsgrundlage zu bekommen und anschliessend google Analytics abschalten.

Wenn Du Piwik live sehen willst oder neugierig bist zu welch übersichtlicher Zahl von Besucher Du hier gehörst habe habe ich die Piwik-Statistiken des Blogs zur Ansicht allgemein freigegeben:

Unter http://stats.stdlw.de/piwik/ kannst Du direkt sehen was auch ich sehen kann. Datenschutz und Transparenz und so wink .
Tipp: Die Widgets haben unten rechts ein Icon: piwik-plus — wenn man darüber fährt erscheinen weitere Icons mit der man die Darstellung ändern und z.B. aus einer Balkengrafik einen Kuchen backen kann wink

Viel Spaß dabei!

Twitter (mobil) von hier!

Da Frank mich unabsichtlich daran erinnerte habe ich gestern Abend noch schnell dabr hier installiert.

dabr ist ein für Mobilgeräte optimierter, Webbasierter Twitter-Client. Er war mein Favorit in “5 mobile Webinterfaces für Twitter“ im letzten Jahr.
Das schöne an dabr ist nicht nur dass er einer der besten (wenn nicht der Beste) webbasierten Twitterclients für mobile Geräte ist, sondern auch dass er opensource ist.
Den Sourceode gibt es auf der Projektseite.

Die installation ist simpel: die config.sample.php in config.php umbennen und in ihr den ENCRYPTION_KEY auf einen zufälligen Wert ändern.
Danach alles auf den Webspace kopieren und fertig ist der Webclient.
Die Vorraussetzungen sind gering, es wird aber eine aktuelle PHP Version benötigt:

  • PHP 5.2+
  • curl PHP module
  • mcrypt PHP module
  • mod_rewrite apache module
Da mein neuer Webspace das alles erfüllt hab ich hier jetzt halt auch eine dabr Installation laufen.

Es werden lokal keine Daten gespeichert, daher ist auch keine Datenbank notwendig, und deswegen kann ich Dir auch anbieten den Client mitzubenutzen. Unter dabr.stdlw.de erreichst Du ihn.

Aktiviert habe ich zustätzlich die Vorschau von flickr Bildern (Twitpic und Co. sind sowieso aktiv) und das Auflösen von Kurzurls zu den langen Orignallinks via longurl.com.

Einen OAuth Key habe ich zwar von Twitter bekommen und er funktioniert auch zum lesen, beim schreiben von Nachrichten gibt es aber noch die Meldung dass die Logindaten falsch seien. Das versuche ich noch zu korrigieren.
Nutzen kannst Du es trotzdem ohne Bedenken, auf dem Server werden die Logindaten nicht gespeichert. Lokal gespeichert wird nur eine Session ID via Cookie bzw. die Logindaten (lokale bei Dir!) wenn Du den Haken setzt dass die Daten gespeichert werden sollen.

Stöckchen: mobile Social Media Nutzung

Mathias war fleissig und hat ein Stöckchen geschnitzt. Thema ist mobile Social Media Nutzung.
Und das ist ein Thema bei dem ich das Stöckchen natürlich fangen muss cool

Also los geht’s:

  • Welches Handy benutzt Du?
    Ein Samsung Galaxy mit Android System

  • Benutzt Du privat und beruflich unterschiedlich Handys? Wenn ja, warum?
    Beruflich und Privat trenne ich grundsätzlich. Von daher zwei Handys und unterschiedliche weil wir das Galaxy in der Firma nicht zu Auswahl haben.

  • Warum hast Du Dich beim Kauf für genau dieses/diese Handy/s entschieden?
    Nachdem UIQ als Plattform meines vorigen Telefons gestorben ist wollte ich ein Smartphone mit modernem, zukunftsfähigen System. Da da iphone für mich schon aus Prinzip nicht in Frage kommt reduziert sich die Wahl auf die Plattformen Android und WebOS. Das Palm Pre gab es als ich gekauft habe noch nicht in Deutschland, also hiess es warten oder Android. Ich habe mich für Android entschieden und da war das Galaxy von der Hardware her dievielversprechenste Wahl (Alternativ damals HTC Dream/G1 und Magic).

  • Was gefällt dir besonders gut an deinem / deinen Handys?
    Android smile Die Bedienung ist toll und die Möglichkeiten gigantisch. Der Market ist zwar noch nicht so groß wie Apples App Store aber vielfältiger. Eine Funktion wie SMS Popup fehlt oder der Browser gefällt nicht? Einfach nachinstallieren!
    Von der Hardware her gefällt mir das Galaxy auch sehr gut. CPU und Speicher sind zwar nicht mehr die Spitze der Android Stange aber identisch mit den Alternativen von HTC und so viel Speicher wie das Galaxy hat nicht einmal Googles Nexus One. Von den 8GB die das Galaxy hat ist 1GB für Programminstallationen, da hat selbst das Nexus nur die Hälfte.
    Nur an der Kommunikation und Updatepolitik muss Samsung arbeiten, daran scheitert eine Empfehlung für das Gerät derzeit.

  • Auf welches Feature willst oder kannst Du auf keinen Fall verzichten?
    Die Onlinefähigkeit. Daran hängt alles weitere.

  • Nutzt Du Social-Media Dienste (Twitter, Facebook, Friendfeed, etc.) auf deinem Handy? Welche?
    Regelmässig und aktiv Twitter und identi.ca, ab und zu und bei Bedarf (E-Mail Benachrichtigung) auch Facebook und Xing. Die VZ-Netzwerke App habe ich auch installiert, aber die fängt schon Staub. Auch noch recht viel IRC, zählt das als social Network? wink
    Ausserdem installiert sind Qik und Qype, die sind auch irgendwie sozial. Und Waze steht auf der Liste der Dinge die ich probieren will, nen social Navigationssystem.
    Noch nichts anfangen kann ich mit gowalla und foursquare.

  • Du benutzt gar keinen Social-Media Dienst auf dem Handy? Warum nicht?
    öhm, die Frage lasse ich aus wink

  • Welche Software nutzt Du als Zugang zu den Social-Media Diensten?
    Eine zum Dienst passende App smile Twidroid für twiiter und identi.ca, für Facebook und VZ die jeweilige App, nur Xing muss ich über den Browser des Telefons aufrufen weil die sich auf die iphone Randgruppe einschränken eek

  • Aus welchem Grund ist gerade die mobile Nutzung der Social-Media Dienste für Dich wichtig oder unwichtig?
    Social Media Dienste sind halt soziale Dienste. Menschlich. Da ist ist wichtiger/interessanter/relevanter wann etwas wem geschieht als bei einer Firmenmeldung. Durch die mobile Nutzung kann man es immer dann nutzen wenn gerade Zeit ist oder wenn man etwas mitteilen möchte. Man ist nicht auf einen Rechner mit Onlinezugang angewiesen. Man ist freier in der Nutzung, darf sich aber nicht von dem immerpräsenten Dienst abhängig machen.

  • Welchen Handytarif hast Du gebucht und was für ein Datenpaket bzw. was für eine mobile Datenflat benutzt Du?
    Ich habe die “alte” Zehnsation von E-Plus (mit 10ct pro Kurznachricht) zusammen mit der Handyflatrate für 10€ im Monat die nach 250MB gedrosselt wird.

  • Dein Fazit? Hast Du weitere Anmerkungen?
    Dass Computer und das Internet unsere Welt verändert haben und es auch noch weiterhin tun haben die meissten mittlerweile bemerkt. Es ist eine neue Kulturtechnik wie der Buchdruck kombiniert mit der Dampfmaschine. Die aktuellen Mobiltelefone machen diese Kulturtechnik allgegenwärtig. Jederzeit an jedem Ort. Unsereins als digital immigrant muss dabei noch bewusst darauf achten sich davon nicht vereinnahmen zu lassen, aber spätestens unsere Kinder werden als digital natives damit keine Probleme mehr haben. Nicht jeder Immigrant wird das geistig oder praktisch nachvollziehen können.
  • So, das wäre erledigt. Ich werfe das Stöckchen weiter an Ralf, Shahpur und nodch