INS-ecommerce

Webcontrolling Grundlagen: Einen Visit (Besuch) richtig messen.

In dritten Teil (nach Messmethoden und Client-Infos) meiner kleinen Reihe über Webcontrolling Grundlagen geht es nun darum, wie man einen Besuch (Visit) richtig misst und ihn erkennt. Das ist gar nicht so einfach.

Allgemein: Was ist ein Visit?

Ein Visit bzw. Besuch einer Website bezeichnet einen zusammenhängenden Nutzungsvorgang. Also wie lange sich ein Besucher auf einer Website "aufhält" und dort auf den einzelnen Seiten herumklickt. Jetzt ist es aber leider aus technischen Gründen so, dass ein Besuch aus beliebig vielen einzelnen, jeweils für sich alleine stehenden PIs (Page Impressions) besteht. Man kann zwar feststellen, wann die einzelnen Seiten abgerufen wurden, aber nicht, was der Besucher wirklich gemacht hat (hat er 20 Minuten lang einen Seitentext gelesen, oder war er zwischendurch auf anderen Websites und kommt nun nach 20 Minuten mit einem neuen Besuch wieder...?).
Anders als bei einem Telefonat (bei dem es einen konkrete Anfang und ein konkretes Ende gibt), ist das bei Visits nicht der Fall, weil es nur einzelne Seitenabrufe (PI) gibt, aus denen man sich einen "Besuch" herleiten muss.

Deswegen gibt es keine richtige und keine falsche Methode, einen Visit zu messen. Wie man einen Visit herleitet, ist freie Interpretationssache.

Visits sollen gleich gemessen und damit vergleichbar sein

Für die Vergleichbarkeit von Visit-Zahlen sind völlig unterschiedliche Festlegungen und Interpretationen schlecht. Zum Beispiel möchte man vergleichbare Werte wenn man auf Webseiten Anzeigen schalten will. Deswegen hat die IVW (Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V.) schon recht früh die Berechnung der Online-Werte PI und auch Visit definiert. Wie schon gesagt: Die IVW-Festlegung ist nicht richtiger als andere. Wer aber in Deutschland professionell im Ecommerce und Online-Marketing tätig ist, tut gut daran, zum IVW-Verfahren vergleichbare Zahlenwerte zu verarbeiten.

Der IVW-Visit

Ein Visit beginnt, wenn ein Besucher die erste PI (Page Impression) ausgelöst hat. Alle nachfolgenden PIs werden solange diesem Besuch zugeordnet. solange von einem PI zum nächsten nicht mehr als 30 Minuten Pause sind.

Wie erkennt man einen Besucher von PI zu PI?

Jeder Seitenabruf (PI) steht für sich selbst. Wie erkennt man nun bei zwei aufeinanderfolgenden PIs, dass es sich um den gleichen Besucher handelt?

Die Cookie-Methode
Man setzt bei einem Besucher ein sogenannte Session-Cookie im Browser, das ist eine eindeutige Identifikation, die der Browser des Besuchers bei allen weiteren Seitenabrufen mitsendet, und über die dieser Client/Besucher identifiziert werden kann, so dass alle PIs diesem Visit eindeutig zugeordnet werden können.

Die "Rate-Methode"
Man kann im Browser (oder in dazwischenliegenden Firmen-Firewalls oder HTTP-Proxies) Cookies blockieren, so dass diese nicht zur Identifikation hergenommen werden können. Dann nimmt man andere Informationen, die man über den Client kennt, und vermutet, dass diese Informationen in dieser Kombination einmalig sind, und so einen konkreten Besucher identifizieren können. Dazu zählen:
  • IP-Nummer des Abfragers (Clients)
  • Browser-Typ und Betriebssystem (Agent-String) des Clients
  • X-Forwarded-For (XFF), die IP-Nummer des Clients bei dazwischengeschaltetem HTTP-Proxy


Man schaut also bei einem Seitenabruf nach, ob in den vorhergehenden 30 Minuten bei einem Visit die drei obigen Informationen identisch waren, und falls ja, ordnet man diesen Seitenabruf (PI) dem betreffenden vorhandenen Visit zu.

Findet man keinen Visit mit den gleichen Informationen erzeugt man intern einen neuen Visit. Findet man mehrere Visits mit den gleichen Informationen, prüft man noch den Referrer: Zeigt dieser eine externe Webseite (der Besucher kam also von aussen auf die Website), wird der Besuch gezählt, sonst war er bereits (so die Annahme) auf der Website und der Besuch wird nicht gezählt.

Das ist natürlich wieder mit einer Unsicherheit verbunden, denn bis auf die IP-Nummer sind alle Werte vom Client beliebig manipulierbar.

Auch die übliche Zwangstrennung bei DSL und Einwahl Internetzugängen kann das Ergebnis verfälschen, denn dadurch erhält der Client eine neue IP-Nummer von Provider zugeteilt.

Das IVW-Zählverfahren ist im Detail tatsächlich noch etwas komplexer als oben dargestellt. Wer sich dafür interessiert kann es sich hier als PDF ansehen.

Vom Besuch zum Besucher

Ok, jetzt wissen wir, was ein Besuch ist, damit kennen wir doch auch den Besucher, oder? Ja klar. Aber wie erkennt man, dass zwei Besuche (z.B. an aufeinanderfolgenden Tagen) vom gleichen Besucher (UV - Unique Visitor) kommen, und es sich also um einen wiederkehrenden Besucher (Returning Visitor) handelt?

Auch das klappt mit einem Cookie, hierbei wir ein permanentes Cookie (das z.B. 4 Wochen im Browser gespeichert wird) gesetzt, und wenn der Besucher ein paar Tage später wieder die Website besucht, sendet er dieses Cookie automatisch und wird darüber identifiziert. Jedoch haben viele User solche permanenten Cookies in ihrem Browser blockiert, so dass dieses Messverfahren nicht alle wiederkehrenden Besucher zählen kann. Die Alternative läuft dann (wie bei der Visit-Erkennung) wieder über IP-Nummer, Agent-String. Doch hierbei gibt es eine sehr hohe Fehlerquote. Jemand der ein paar Tage später z.B. per DSL/Einwahl ins Internet geht, hat schon wieder eine ganz andere IP-Nummer und wird daher nicht als "wiederkehrender Besucher" gezählt. Deswegen ist bei der Betrachtung des UV-Kennwertes (Unique Visitor) immer von einer recht hohen Fehlerrate auszugehen.


Zusammenfassung
Es gibt für Visits und Visitors kein korrektes und genaues Messverfahren. Da vergleichbare Zahlen für professionelle Ecommerce und über Werbung finanzierte Websites aber ab einer Größe notwendig sind, sollte man ein einheitliches Messverfahren verwenden. Dazu bietet sich in Deutschland das IVW-Verfahren an, welches von allen großen Medienwebsites verwendet wird.

Ausblick
Im nächsten Teil geht es dann an verschiedene sich aus den Basiswerten ergebende komplexere "Messwerte". Auch Einflüsse von Caching und Proxies werden erklärt, und wie man (speziell bei Blogs interessant) seine RSS-Leser zählen kann.


Geschrieben von af in Web Controlling am: Donnerstag, 15. März 2007
Permalink

Tags: , , , ,

Diesen Beitrag bei folgenden Diensten bookmarken:
del.icio.us - Digg it - Mister Wong - Technorati - Ruhr.com Suchmaschine

Kommentare

Nächster Artikel: Ehrlicher Spammer ...

Vorheriger Artikel: Bist Du ein Terrorist? Frage einfach die US "no-fly" Liste.