WhoTracks.me: Finde heraus, wo du im Web verfolgt wirst
Im zweiten Teil unserer Blogserie zu WhoTracks.me erklären wir, wie du mithilfe des umfassendsten Transparenzwerkzeugs für Tracking im Netz ganz einfach prüfen kannst, wie viele und welche Tracker auf einer bestimmten Website aktiv sind. Außerdem erfährst du, woher WhoTracks.me seine Daten bezieht.
Im ersten Teil unserer Blogserie zu WhoTracks.me haben wir einen Blick auf die umfangreichen Tracker-Informationen und das Tracker-Ranking geworfen. Zusätzlich stellt die Website, die sich aktuell noch in einer Pilotphase befindet, eine Rangliste der 500 meistbesuchten Websites samt der Anzahl der auf ihnen gefundenen Tracker bereit.
Die Website-Übersichtsseite informiert darüber, dass derzeit knapp 83 Prozent des gesamten Datenverkehrs auf die Top-500-Websites mit Tracking-Skripten entfallen. Im Schnitt finden sich neun Tracker auf jeder Website. Pro Seite stellen Tracker durchschnittlich 33 Anfragen, um teils höchst private Daten auszulesen.
Klickst du eine der 500 gelisteten Websites an, gelangt du zu einer detaillierten Profilseite. Sie stellt übersichtlich dar,
- wie hoch der von Trackern verursachte Datenverbrauch pro Seite ist.
- wie viele Tracker im Durchschnitt pro Seite gefunden wurden.
- wie viele Tracker insgesamt entdeckt wurden und zu welchen Kategorien sie gehören.
- welche Tracking-Verfahren erkannt wurden.
- wie hoch der Anteil der Seitenaufrufe mit Tracking-Anfragen am Gesamt-Traffic ist.
- wie hoch die Zahl der Tracking-Anfragen pro Seitenaufruf ist.
An einer “Tracker Map” lässt sich leicht ablesen, zu welchen Kategorien und Betreibern die auf einer Website gefundenen Tracker gehören. Darunter sind alle erkannten Tracker nochmals einzeln aufgelistet und können nach Verbreitung auf der Website oder Betreiber (alphabetisch) sortiert werden. Auf diese Weise kannst du ganz einfach nachvollziehen, welche Tracker in welchem Umfang auf der Website aktiv sind. Ein Klick auf einen Eintrag bringt dich zur entsprechenden Tracker-Profilseite.
Woher stammen die Daten?
WhoTracks.me basiert auf den Anti-Tracking-Technologien von Cliqz und Ghostery. Seine Datenbank beinhaltet ausschließlich anonyme Statistikdaten von Cliqz-Nutzern, die am Human Web teilnehmen. Für jede Seite, die im Browser geladen wird (außer in privaten Tabs), empfängt Cliqz ein Signal, das die zum Laden dieser Seite erforderlichen Drittanbieteranfragen beschreibt. Folgende Maßnahmen stellen sicher, dass die Human-Web-Daten unumkehrbar anonymisiert werden:
- Vor der Übertragung werden persönlich identifizierbare Informationen (PII) entfernt. Die Adresse der Seite wird in Hostname und Pfad aufgeteilt. Beide sind mit einem abgeschnittenen Hash verschleiert. Das bedeutet, dass Cliqz nur bekannte Hostnamen und Pfade wiedererkennen, aber keine privaten Seiten entziffern kann. Nehmen wir als Beispiel twitter.com/nutzername: Cliqz kann hier nur twitter.com herausfinden, weil es schon weiß, dass twitter.com eine bekannte Website ist. Solange aber nutzername nicht bekannt ist, kann Cliqz ihn nicht entziffern.
- Drittanbieteranfragen werden auf Subdomain-Ebene aggregiert, wobei alle Pfade entfernt werden, weil sie personenbezogene Daten enthalten könnten. Lautet die Subdomain etwa meinkonto.bank.de und auf den Seiten meinkonto.bank.de/login (öffentlich) bzw. meinkonto.bank.de/kontouebersicht (privat) wurden Drittanbieteranfragen festgestellt, wird der Pfad ignoriert und immer nur die Subdomain meinkonto.bank.de samt der Anzahl der auf allen Unterseiten gefundenen Tracking-Anfragen übermittelt.
- Jeder Seitenaufruf wird als eigenständiges Signal über ein Proxy-Netzwerk gesendet, das die IP-Adresse des Absenders verschleiert. Dadurch wird verhindert, dass sich serverseitig – etwa durch Betrachtung der IP-Adresse – Verknüpfungen zwischen Seitenaufrufen herstellen lassen. Eine nachträgliche Deanonymisierung ist somit ausgeschlossen.
Externe Sicherheitsforscher haben den Datenbestand zuletzt im April 2017 untersucht. Dabei fanden sie vereinzelte theoretische Angriffsmöglichkeiten, die nur einen sehr kleinen Teil der Signale betrafen. Diese Probleme wurden unverzüglich behoben, um mögliche Angriffsvektoren zu beseitigen.
In erster Linie dienen die anonymen Statistikdaten dazu, automatisch eine Liste von Tracking-Domains zu generieren, die Cliqz für sein auf Künstlicher Intelligenz basierendes Anti-Tracking-System benötigt. Nur so kann es wirksam gegen Tracking vorgehen und Veränderungen im Tracker-Verhalten frühzeitig erkennen. Ein positiver Nebeneffekt ist, dass WhoTracks.me dieselben Daten zum Erstellen von detaillierten Tracker-Profilen und Ranglisten nutzen kann.
Volle Transparenz dank Open Source
Künftig werden unter dem Titel „Tracking the Trackers“ neue Studien auf WhoTracks.me veröffentlicht, die in den Tracker-Daten entdeckte Auffälligkeiten beleuchten.
Die auf WhoTracks.me einsehbaren Daten zu Trackern und Websites sowie der Code zur Generierung der WhoTracks.me-Website selbst sind bereits als Open Source auf GitHub verfügbar. Eine API zum vereinfachten Laden der Daten wird in Kürze bereitstehen.
Darüber hinaus können Nutzer sich mittelfristig an der Pflege der Datenbank beteiligen, indem sie Tracker melden. Ihre Unterstützung bei der Visualisierung der Daten ist ebenfalls willkommen. So können sie aktiv an dem umfassendsten Transparenzwerkzeug für Tracking im Web mitwirken, das allen Internetnutzern weltweit kostenlos zur Verfügung steht.