Den halben Vormittag habe ich mich nun mit den Logfiles eines Projekts beschäftigt und bin verdammt geschockt darüber, dass ich in 4246 Datensätzen ganze 381 404-Erros gefunden habe. Wohlgemerkt alles Errors, die mir von den Google Webmaster Tools nicht angezeigt wurden. Ein Grund hierfür kann sein, dass die Webmaster Tools nur Errorseiten anzeigen die von irgendwo her verlinkt wurden. Aber auch Seiten, die einmal im Index gewesen sind (von keiner anderen Seite angelinkt werden) und nun nicht mehr existieren werden vom Googlebot noch regelmässig besucht. In meinem Fall ganze 381 Stück.

Ich habe heute meine Logfiles zum aller ersten Mal mit Grep ausgewertet. Grund hierfür war ein Blogpost, den ich bei conversionmarketing.com gefunden habe. Dank Grep habe ich mit wenigen Minuten Arbeit eine Textdatei erstellt, die mir alle Zugriffe des Googlebots in meinen Logfiles anzeigt. Das geht ganz einfach:

Achtung: Das Tutorial bezieht sich auf die Arbeit mit Mac OS, mit Linux dürfte es auch funktionieren. Windowsnutzer machen sich bitte anderweitig über den Umgang mit Gerp schlau.

Man startet die Konsole wenn man nicht mit dem Kommando cd durch die Ordner navigiert befindet man sich automatisch im Hauptorder des Admins also in meinem Fall im Ordner “chaimdonnewald”. In diesem Ordner habe ich einen Logfile Order angelegt in den ich meine Logfiles geschoben habe. Der Ordner heißt “logfiles” ich begebe mich nun in diesen Ordner:

cd logfiles

dort befindet sich meine Logfile Datei mit dem Namen oip.log und ist über 500 MB groß :-o ich kann nun mit der Hilfe von grep automatisch alle Zugriffe des Googlebots ausfiltern und in einer neuen Datei darstellen. Das kann je nach größe der Logfile-Datei etwas Zeit in Anspruch nehmen.

grep “Googlebot” oip.log > googlebotoip.txt

Abgeschickt und Zack befindet sich eine neue Datei im Ordner Logfiles. Diese kann ich nun mit Excel öffnen. Nun sehen wir in den Spalten z.B. die IP Adresse über die der Bot zugegriffen hat, den Zeitpunkt des Zugriffs etc. In der Spalte ganz rechts sieht man die angeforderte Datei und die Meldung, die der Server zurückgegeben hat. Im Falle eines Not Founds ist das 404.

Jetzt möchte ich alle Not Founds rot darstellen. Ich markiere die Spalte und öffne die Bedingte Formatierung. Dort wähle ich Formel aus und füge ein “=ISTZAHL(SUCHEN(“404″;G1))”

G ist die Spalte in der sich meine Information befindet und 1 die Zeile. Excel erkennt die Zeile aber automatisch. Wähle ich später die Zelle G17 aus und öffne die bedingte Formatierung, steht dort meine Formel für die Zelle G17 anstatt G1.

Das Ergebnis ist eine Excel Tabelle mit allen Zugriffen des Googlebots, bei dem die 404s rot gekennzeichnet sind. Mit der einfachen Funktion “Zählenwenn”, könnt ihr am Ende der Tabelle noch ausgeben wie viele 404s in den Logfiles angezeigt werden:

=ZÄHLENWENN(G:G;”*404*”)

Alle 404s finden

Es geht noch effektiver

grep “404″ oip.log > alle404s.txt

In dieser Datei findet ihr nun auch die Verweisenden Websites und könnt so tote Links, die zu euch führen, finden. Oder seht, wenn von bestimmten Unterseiten Dateien angefragt werden, die nicht mehr existieren. Zum Beispiel weil euer Theme immer wieder versucht auf eine nicht mehr existente JavaScript-Datei zuzugreifen.

Hinweis für Stalker

Die IP Adresse gilt in Deutschland bekannterweise als personenbezogenes Datum. Daher sollte man mit ihr vorsichtig und gewissenhaft umgehen, der folgende Denkansatz ist deswegen nur rein hypotetisch ;)

Mittels der Logfiles kann man die Aktivität von Personen problemlos auf der Webseite verfolgen. Man schickt beispielsweise einer Person einen Link zu einer extra generierten Unterseite um an die IP dieser Person zu kommen und kann danach die “Schritte” dieser Person auf der Webseite mühelos über die Logfiles auswerten z.B. so:

grep “81.123.456.7″ oip.log > stalker.txt

Wie oft kommt der Googlebot?

Kommt der Googlebot seltener, kann das ein Anzeichen für eine Abstrafung sein. Daher sind solche Daten relativ Interessant und lassen sich anhang der Logfiles leicht ausfiltern. Wir nehmen hierzu wieder unsere Googlebot-Datei und wollen mal die Daten der letzten Tage erheben.

=ZÄHLENWENN(D:D;”*26/May/2010*”)

bzw. für andere Daten. Alles schön untereinander auflisten. Und dann lässt sich hierzu auch mühelos ein Diagramm basteln.Wirklich aussagekräftig sind die Daten natürlich nur wenn man sie über einen längeren Zeitraum vergleicht bzw. Stichproben aus mehreren Wochen heranzieht :)


Anmerkungen:

Kommentare