INS-ecommerce

Webcontrolling Grundlagen: Die Messmethoden

Wenn Webcontrolling als Hilfsmittel für Unternehmensentscheidungen eingesetzt wird, sollte man bis zu einem gewissen Grad wissen, wie vertrauenswürdig die ermittelten Zahlen sind. Denn sonst kann man leicht zu falschen Schlussfolgerungen kommen (Garbage in, Garbage out)

Deswegen möchte ich hiermit eine kleine Serie zu einigen Grundlagen des Webcontrolling starten, und versuchen dabei so nicht-technisch wie möglich zu sein, dabei aber herauszustellen, was sichere "Fakten" und was unsichere "Annahmen" bei den Ergebnissen sind.

Den Anfang macht eine Übersicht der Messmethoden

Browser(Client)-Toolbar

Das vermutlich bekannteste Beispiel hierfür ist die Alexa-Toolbar. Über eine Software (Toolbar) die im Client-Browser aktiv ist, wird jede vom Anwender aufgerufene Webseite mitprotokolliert, und an einen zentralen Server des Toolbar Anbieters (z.B. Alexa) gesandt. Hierbei werden also alle Seitenabrufe dieses Users (über alle besuchten Websites) protokolliert. Man kann damit also sehr gut, das Click-Verhalten dieser Person analysieren (was z.B. für globale Anbieter von Werbung interessant sein kann...). Weil aber diese Toolbar-Besucher meist nur einen sehr kleinen Teil der Gesamt-Besucher ausmachen, kann man daraus keine verlässlichen Zahlen über die gesamten Besucher/Abrufe eine konkreten Website herleiten.

Logfile basierte Messung

Jeder Webserver protokolliert Seiten und Datei-Abrufe in seinem Logfile. Dieses Logfile kann im nachhinein ausgewertet werden. Das muss nicht auf dem Server passieren, die Logdatei kann auch auf einen PC heruntergeladen werden. Vorteile sind die Einfachheit und der geringe Aufwand auf dem Server. Nachteile sind, dass Tools zur Logfileauswertung die Seitenabrufe (PI) leicht "falsch" (d.h. meist zuviel) zählen können, weil nicht jeder Logfileeintrag ein Seitenabruf eines Besuchers sein muss. Auch stehen nicht so viele Informationen zur Verfügung wie bei anderen Verfahren. Für größere Websites aufgrund der Datenmengen weniger geeignet.

Messpixel bzw. Webbug basierte Messung

Bei diesem Messverfahren, zu dem auch die vielen "Webcounter"-Anbieter zählen, wird in jede Webseite ein kleines Messpixel (auch Webbug genannt), d.h. eine kleine Grafikdatei, eingebaut. Wenn nun die Webseite aufgerufen wird, so werden auch alle Grafiken dieser Website aufgerufen. Und nun zählt man einfach alle Abrufe dieses Messpixel und erhält damit alle Seitenabrufe. Leider ist das nicht ganz richtig. Denn dieses Verfahren zählt leider (fast) immer zuwenig Abrufe. Webcrawler von Suchmaschinen, rufen zwar die Webseiten ab, um die Inhalte auszulesen, die Grafiken interessieren jedoch weniger, also werden von jenen die Messpixel nicht geladen, und damit wird ihr Seitenabruf nicht gezählt. Das kann man als Vorteil ansehen, wenn einen nur die menschlichen Besucher interessieren. Doch auch viele menschliche Besucher werden nicht gezählt, wenn diese z.B. irgendwelche Adware-Blocker oder Anonymisierungstools verwenden. So wird dieses Messpixel (welches oft von einer anderen Adresse geladen wird) von bestimmten Firefox Versionen nicht geladen, wenn diese "Grafiken nur von der ursprünglichen Website laden" aktiviert haben. Und damit sind diese Besucher "unsichtbar".

Zählpixel (wenn sie denn geladen werden) haben aber noch einen weiteren Vorteil: Man kann damit noch viel mehr Informationen über den Seitenabrufer herausfinden, als mit der Logfile-Methode. So kann man feststellen, ob im Bowser Javascript aktiviert ist, oder nicht. Und falls Javascript aktiviert ist, kommt man wiederum an noch mehr Informationen, wie z.B. die Bildschirmgröße, Farben und verschiedene installierte Browserplugins (Flash, Quicktime, etc...). Über Zählpixel kann man z.B. auch Cookie-Informationen übermitteln, um so z.B. Sessions (mehr dazu in einem späteren Beitrag) und Besucher (dito später) besser zu identifizieren.

Zählpixel werden besonders bei grossen Websites (mit sehr vielen Zugriffen) verwendet. Trotzdem misst dieses Verfahren zu wenige "echte" Seitenabrufe. Stichproben und Vergleichstests haben ergeben, dass die Messfehler typisch zwischen 1% und 8% gelegen haben.

Serverbasierte Online-Messung

Dieses Messverfahren wird z.B. bei dynamischen Ecommerce- und Shop-Systemen eingesetzt, die interaktiv das Besucherverhalten analysieren (Besucherprofil) um dann darauf abgestimmten Informationen diesem Besucher anzuzeigen (z.B. thematisch ähnliche Produkte zu den bisher besuchten Produktseiten).

Hierbei wird in dem Moment des Seitenabrufes von der auf dem Server laufenden speziellen Software (die auch dynamisch die Seite erzeugt) der Zugriff gezählt. Wie bei der Logfile-Analyse kann daher kein Abruf verloren gehen. Wenn dieses Verfahren noch mit einem Messpixel (welches ebenfalls in Echtzeit von der Serveranwendung ausgewertet wird) kombiniert wird, bekommt man zusätzlich die Information, wie viele von den Seitenabrufen auch das Messpixel abgerufen haben. Das ist eine unschätzbare Zusatzinformation, die helfen kann, eventuelle Messfehler genauer einzugrenzen und so die Messergebnisse noch "exakter" zu machen. Ausserdem kann man bei diesem Verfahren einfacher festlegen, welche Besucher z.B. nicht in der Statistik (oder nur seperat ausgewertet) werden sollen, um Zugriffe von Mitarbeitern oder Redakteuren, die sich einloggen, nicht zu zählen und so die Ergebnisse nicht zu verfälschen.


Ausblick
Im zweiten Teil der Serie gehe ich auf die Informationen ein, die man über einen Client aus einem Seitenabruf herausfinden kann und im dritten Teil beschäftige ich mich der Erkennung von Sessions, Besuchern und Besuchen. Danach geht es dann an verschiedene sich aus den Basiswerten ergebende komplexere "Messwerte". Auch Einflüsse von Caching und Proxies werden dann erklärt, und wie man (speziell bei Blogs interessant) seine RSS-Leser zählen kann.


Geschrieben von af in am: Montag, 5. März 2007
Permalink

Tags: , , , ,

Diesen Beitrag bei folgenden Diensten bookmarken:
del.icio.us - Digg it - Mister Wong - Technorati - Ruhr.com Suchmaschine

Kommentare

Nächster Artikel: Rechenaufgaben Spamschutz ausgehebelt

Vorheriger Artikel: Garbage-in Garbage-out: Die Business-Blog Bestenliste