31. Juli 2008 - User-Tracking auf Webseiten, Teil 1

Spurenlesen im Web

Mit der Analyse von Einkäufen im Online-Shop lässt sich Werbung zielgerichtet an den Mann und die Frau bringen. Der Wunsch des Marketings, immer genauere Nutzerprofile und Zugriffsstatistiken zu erstellen, ist zwar nachvollziehbar. Er darf aber nur unter Berücksichtigung der datenschutzrechtlichen Rahmenbedingungen realisiert werden. Wir zeigen Ihnen im ersten Teil unserer Reihe den technischen Hintergrund des User-Trackings.

Datenschutzkonzept ist Grundlage der Datenschutzorganisation (Bild: Mathias Rosenthal / iStock / Thinkstock)

Wenn Sie heute als Amazon-Kunde die Startseite des Internethändlers aufrufen, werden Sie freundlich mit Ihrem Namen angesprochen, und es werden Ihnen Einkaufstipps entsprechend Ihren Interessen gegeben. Die Seite weiß also, wer Sie sind und welche Musik und Literatur Sie bevorzugen.

Online-User-Tracking hilft, zielgerichtet zu werben

Mit der zunehmenden Nutzung des World Wide Web steigt das Interesse daran, dieses Medium zur Kundenpflege und Kundenakquise zu nutzen. Je zielgerichteter eine bestimmte Werbung an den Kunden gebracht werden kann, desto besser.

Je zielgerichteter die Werbung, desto höher der Preis

Mittlerweile erzielt zielgerichtete Werbung deutlich höhere Preise als breit gestreute. Viele Anbieter von Websites finanzieren sich teilweise oder gar vollständig über Online-Werbung. Sie sind daher bestrebt, möglichst viele Informationen über das private und berufliche Umfeld ihrer Nutzer zu erfahren und deren Interessen und Vorlieben zu analysieren. Denn dieses Wissen lässt sich in bare Münze umwandeln.

Erste Informationen liefern die Protokolldateien der Webserver

Die Informationsquellen sind begrenzt. Der erste Ansatz, nämlich die Protokolldateien der Webserver auszuwerten, ist wenig zielführend. Der Webserver ist zwar in der Lage, jedes Mal, wenn ein Nutzer eine Webseite vom Server anfordert, die IP-Adresse des zugreifenden Rechners, das Datum und die Uhrzeit sowie die URL der Zielseite zu vermerken. Diese Angaben sind jedoch in der Praxis kaum zu verwerten.

Ein Webserver legt unterschiedliche Protokolldateien, so genannte Logfiles, für verschiedene Zwecke an. Um eine Auswertung dieser Logfiles zu unterstützen, erfolgt die Speicherung im Standardformat (common logfile format).

Webserver legen meist vier verschiedene Protokolldateien an

In der Regel werden die folgenden Protokolldateien angelegt:

  • Server-Zugriffsprotokolldatei (access_log)
  • Browserprotokolldatei (agent_log)
  • Verweisprotokolldatei (referrer_log)
  • Fehlerprotokolldatei (error_log)

Die Ergebnisse der Protokolle sind allerdings mit Vorsicht zu genießen

Bei der Auswertung der Protokolle sind einige Besonderheiten zu berücksichtigen:

  • Mehrere Nutzer, die hinter einer Firewall über einen Proxy-Server zugreifen, werden als ein Nutzer gezählt, da nur die IP-Adresse des Proxies sichtbar wird.
  • Die Zwischenspeicherung (Caching) häufig abgerufener Webseiten durch die Proxies vermindert die Anzahl der Zugriffe auf den Webserver und lässt die Nutzung als deutlich zu gering erscheinen.
  • Wechselnde IP-Adressen bei den Privatanwendern erschweren die Zuordnung von Abrufen zu einzelnen Nutzern und damit die Erstellung langfristiger Nutzerprofile. Eine verlässliche Unterscheidung zwischen neuen und regelmäßig wiederkehrenden Nutzern ist so nicht möglich.
  • Die verwendeten Zeitstempel sind häufig auf Sekunden normiert, sodass bei Tausenden von Zugriffen pro Sekunde keine sichere Differenzierung der einzelnen Nutzer möglich ist.
  • Aus den Protokolldaten lässt sich nicht entnehmen, warum ein Nutzer an einer bestimmten Stelle die Website verlassen hat und ob er eventuell Stunden oder Tage später wiederkehrt, um etwa doch noch einen Kauf abzuschließen.

Um zuverlässigere Informationen zu bekommen, bedarf es eines sitzungsübergreifenden User-Trackings

Um einzelne Rechner oder Besucher zuverlässiger unterscheiden zu können, ist eine Information nötig, die sich über einen bestimmten Besuchszeitraum nicht verändert.

Dazu ist es erforderlich, die Nutzer sicher zu identifizieren, nach Möglichkeit über einen längeren Zeitraum hinweg. Zwei Lösungen sind üblich.

Lösung 1: Die Nutzerregistrierung

Der Nutzer muss sich beim Anbieter mit einem Pseudonym registrieren und erhält dann User-ID und Passwort. Nun lassen sich alle Aktivitäten der jeweiligen User-ID zuordnen.

Dazu müssen die einzelnen Transaktionen Sitzungen zugeordnet werden. Die Zuordnung kann über einen entsprechenden Identifier in der URL oder in Form eines Cookies erfolgen.

Die Verknüpfung mit Gewinnspielen bringt noch mehr Informationen

Eine häufige Variante dieses Verfahrens ist, den Nutzer dazu zu bringen, mehr Informationen als nötig über sich preiszugeben. Beliebt sind Postleitzahl und Straßenname. Hieraus lassen sich nämlich über spezialisierte Dienstleister das Wohnumfeld und der voraussichtliche soziale Status des Nutzers ableiten.

Häufig werden auch Familienstand und Alter sowie Hobbies und Interessen abgefragt. Gemeinhin sind solche Abfragen mit einem Gewinnspiel verbunden, um den Nutzer bei Laune und somit bei der Stange zu halten.

Lösung 2: Zufällige Identifier

Bei dieser Variante erzeugt der Webserver einen (zufälligen) Identifier, also ein eindeutiges Merkmal, und schreibt ihn als Cookie auf den Client des Nutzers. Solange der Nutzer diesen Cookie nicht löscht, lassen sich die Aktivitäten diesem Identifier zuordnen.

Cookies erkennen den Nutzer wieder

Cookies sind kleine Textdateien, die ein Webserver zu einem Browser sendet und die dann der Browser wiederum zu einem späteren Zeitpunkt/Zugriff an denselben Webserver zurücksendet.

Je nach Eigenschaft des Cookies werden die Informationen vom Browser auf der lokalen Festplatte des Nutzers gespeichert.

Die verschiedenen Arten von Cookies

Cookies lassen sich in vier verschiedene Kategorien einordnen:

  • Permanente Cookies: Ablaufdatum liegt so weit in der Zukunft, dass praktisch keine Löschung erfolgt
  • Sitzungs-Cookies: werden nur über die Dauer einer Internetnutzung gespeichert
  • First Party: werden von der besuchten Webseite gesetzt
  • Third Party: werden von anderen Webseiten als der besuchten gesetzt

Jeder Nutzer kann Cookies löschen

Die Verwaltung der Cookies erfolgt ausschließlich aufseiten des Clients, z.B. durch Löschung nach Erreichen des vom Webserver mitgegebenen Ablaufdatums. Der Nutzer kann aber auch jederzeit gespeicherte Cookies von Hand löschen, da es sich um einfache Textdateien handelt.

Webbugs: Auch unsichtbare Bildchen zählen mit

Cookies lassen sich mit so genannten Webbugs, auch Zählpixel oder Clear GIFs genannt, verbinden. Hierbei handelt es sich um Grafikdateien mit einer Größe von 1 x 1 Pixel, die auch in andere Grafiken integriert sein können.

Webbugs sind gut versteckt

Durch die Größe oder auch durch transparente Farbwahl lassen sich Webbugs nur durch einen Blick in den Source Code einer Webseite erkennen.

Wird eine Webseite aufgerufen, muss diese kleine Grafik nachgeladen werden. Es erfolgt eine Verbindung mit einem Webserver im Internet, wobei die IP-Adresse, die URL der besuchten Webseite, die URL des Webbugs, der Zeitpunkt, der Browsertyp sowie die Information eines zuvor gesetzten Cookies an einen Server mitgegeben werden können.

Webbugs machen die Protokolle der Webserver überflüssig

Das Einbinden von Webbugs hat den Vorteil, dass der Betreiber einer Webseite Informationen über die Besucher erhält, ohne einen Zugriff auf die Logfiles der Webserver zu benötigen.

Ein Beispiel sind die Zugriffszähler

Prominenteste Vertreter dieser Technik sind die viel genutzten Zugriffszähler auf Internetseiten, um bei jedem Neubesucher den Zählerstand um Eins zu erhöhen.

Torsten Lanwehr
Torsten Lanwehr ist stellvertretender betrieblicher Datenschutzbeauftragter bei der Siemens AG.

Sie glauben, Sie hätten noch so viel Zeit? Falsch! Es gibt mehr zu tun, als Sie vielleicht denken! ▶ Zeit zu handeln