Der erste Teil der kleinen Serie handelte von verschiedenen
Messverfahren. In diesem zweiten Teil gehe ich auf die Informationen ein, die man aus einem Seitenabruf (PI) über den Client/Besucher herausfinden kann.
Die abgerufene URL/Seite
Trivial :-) und wichtig. Wird nur der Vollständigkeit halber erwähnt.
Datum /Uhrzeit des Zugriffs
Scheint Trivial, ist aber für viele nachträgliche Auswertungen wichtig. Kann nicht gefälscht werden und ist so genau wie die Server-Uhr.
IP-Nummer
Die IP-Nummer ist fälschungssicher. Sonst könnte keine HTTP-Verbindung zustande kommen. Wenn der Besucher über einen Proxy oder Firewall (z.B. bei größeren Firmen) geht, bekommt man aber nicht die IP-Nummer des Besuchers sondern die IP-Nummer des Proxies/Firewalls.
Aus der IP-Nummer kann man herausfinden, zu welcher Domain diese gehört (Beispiel: 192.129.55.202 -> blog.ins.de), wem das Netz zugeordnet ist. Dazu ein Beispiel aus der Netzdatenbank
RIPE:
inetnum: 192.129.55.0 - 192.129.55.255
netname: INS-NET
descr: INS GmbH
descr: Castrop-Rauxel
country: DE
Die IP-Nummer gehört also zu einem Nummernbereich mit 256 Nummern (0-255) der zu einer Firma aus Deutschland (
DE) gehört. RIPE verlangt, daß Firmen, die eigene Nummernbereiche zugeteilt bekommen haben, in diese Datenbank korrekt eingetragen werden. Die Daten sind (weil sich ständig etwas ändert oder veraltet ist) zwar nie zu 100% korrekt. Aber schon ziemlich vertrauenswürdig. Bei DSL und ISDN Kunden, die keine feste IP-Nummern haben, steht als Netzinhaber dort üblicherweise der Internet-Provider.
Bei der RIPE-Abfrage bekommt man noch weitere Datensätze, interessant ist z.B. die
AS-Nummer:
route: 192.129.55.0/24
descr: INS-NET
origin: AS15368
Vereinfacht gesagt bestimmt die AS-Nummer, bei welchem Internet Provider (oder welchen großen Firma) die IP-Nummer angeschlossen ist. Auch den Eigentümer der AS-Nummer kann man über eine
RIPE-Abfrage herausbekommen.
aut-num: AS15368
as-name: INTARES
descr: Intares GmbH, Hamburg, Germany
Da der Netzeigentümer und der AS-Eigentümer unterschiedlich sind, scheint der AS-Inhaber (Intares) daher wohl der Netzwerk-Provider zu sein.
Jetzt könnte man noch (zusätzlich zum Land) auch versuchen herauszufinden, aus welcher Stadt der Besucher (IP-Nummer) kommt. In den obigen Daten stehen in der Beschreibung (
descr), ja auch die Städte (Hamburg bzw. Castrop-Rauxel). Die erste und am meisten genutzte Vermutung (die IP-Nummer kommt aus der Stadt des Netzinhabers) ist in diesem Beispiel aber falsch.
Man bekommt also aus der IP-Nummer den Domainnamen, den Netzeigentümer (kann ein Provider oder eine sonstige Firma sein), samt dessen Land, und den Internet-Provider.
Man kann aus diesen Daten aber nicht verlässlich herausfinden, aus welcher Stadt ein Besucher kommt.
Jetzt gibt es zwar die verschiedensten Anbieter von "IP-Lokalisierdatenbanken", die über die verschiedensten Wege versuchen herauszufinden, wo welche IP-Nummern zu finden sind, doch alle diese können dazu auch keine genauen Angaben machen. Deshalb: Um sich nicht in die Irre führen zu lassen, sollte man sich auf solche Stadtinformationen nicht verlassen.
Die Useragent Kennung
Der Browser sendet an den Webserver den sogenannten Useragent, der wie folgt aussehen kann:
Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.2) Gecko/20070219 Firefox/2.0.0.2
Daraus kann man üblicherweise das Betriebssystem (NT 5.1 = Win XP) und den Browser (hier Mozilla Firefox 2.0.0.2) ablesen. Allerdings kann man auch folgendes finden:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Dann hat ein Crawler von Google (Googlebot 2.1) die Seiten besucht um sie zu indexieren. Und wenn man:
Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; 4711 subscribers; feed-id=12345)
in seinem Log findet, dann weiß man, daß es 4711 Leute gibt, die im Google-Feedfetcher (ein RSS-Reader) den eigenen RSS-Feed abonniert haben.
Es gibt unzählige verschiedene Useragent-Kennungen, aus denen man dabei recht viel erfahren kann. Doch leider kann man dem Useragent
NICHT vertrauen. Warum? Die Useragent-Kennung kann vom Client (oder einem Proxy der dazwischenhängt)
beliebig gesetzt werden. Zwar ist er bei den meisten Benutzern unverändert, aber man kann nie sicher sein, ob er wirklich stimmt. (Um z.B. einen Googlebot zu erkennen muss man zusätzlich auch schauen, ob die IP-Nummer zu Google gehört.. . etc..).
Der Referrer
Mit dem Referrer gibt der Browser die zuletzt besuchte Seite an. Man kann damit sehr schön erkennen, von welchen anderen Webseiten die Besucher auf die eigenen Website kommen. Wenn Besucher von Suchmaschinen (bzw. deren Ergebnisseiten) kommen, steht im Referrer auch der Suchstring, man kann daraus also ablesen, wonach die Besucher gesucht haben.
Allerdings ist der Referrer auch wieder nicht vertrauenswürdig. Er kann vom Browser (oder einem Proxy) beliebig gesetzt oder einfach leer gelassen werden. Die meisten User lassen diesen unverändert aktiv, aber er ist dennoch mit Vorsicht zu geniessen. Spammer schreiben in den Referrer gerne ihre eigene URL rein, um so (neugierige) Besucher zu bekommen.
Sprache
Welche Sprache benutzt der Browser?
Wird ein Messpixel geholt?
Wenn man auf dem Server einen Seitenzugriff (PI) feststellt, bei dem aber kein Messpixel zusätzlich geholt wird, so kann das ein weiteres Indiz für einen Crawler/Bot sein (also kein menschlicher Besucher), oder dafür, dass ein Besucher die Messpixel (z.B. mittels Werbeblocker o.ä.) blockiert. Diese Informatione kann helfen die anderen Messergebnisse genauer einzugrenzen und die Fehlerbreite zu konkretisieren.
Javascript aktiv?
Mit dieser Information kann man andere Werte besser beurteilen. Ausserdem sieht man daran, wieviele Besucher man aussperrt, wenn man seine Navigation nur auf Javascript basieren lässt (was sowieso eine ganz schlechte Idee ist).
Werden Cookies erlaubt?
Auch dieser Wert kann dazu dienen, andere Werte besser und mit einer genauer eingegrenzten Fehlerquote zu beurteilen.
Bildschirmauflösung und Farbtiefe
Das kann interessant sein, wenn man die Website auf eine bestimmte Mindestbildschirmauflösung optimieren will.
Installierte Plugins
Acrobat, Flash, Microsoft Media-Player, Quicktime und Java sind nur einige Plugins, deren Existenz überprüft werden kann, falls Javascript aktiviert ist.
Zusammenfassung
Ich hoffe diese Zusammenstellung war jetzt nicht zu trocken und langatmig. Die Basisinformationen sind halt sehr technisch orientiert. Einige Dinge scheinen trivial, bekommen aber als Basis für höherwertige Informationen ihren Sinn, einige Dinge scheinen hochinteressant, sind aber bei größeren Ecommerce Websites eher unwichtig.
Ausblick
Im dritten Teil beschäftige ich mich der Erkennung von Sessions, Besuchern und Besuchen. Danach geht es dann an verschiedene sich aus den Basiswerten ergebende komplexere "Messwerte". Auch Einflüsse von Caching und Proxies werden dann erklärt, und wie man (speziell bei Blogs interessant) seine RSS-Leser zählen kann.
Geschrieben von af in am: Donnerstag, 8. März 2007
Permalink
Tags: Webcontrolling, Ecommerce, Messpixel, RIPE
Diesen Beitrag bei folgenden Diensten bookmarken:
del.icio.us
- Digg it
- Mister Wong
- Technorati
- Ruhr.com Suchmaschine
Kommentare
Nächster Artikel: Web 2.0 Logo Generator
Vorheriger Artikel: Parkverbot im Internet