Wie leicht du anhand frei zugänglicher Twitter-Metadaten identifizierbar bist

Britische Forscher konnten allein durch die Analyse von Metadaten jeden von 10.000 Twitter-Nutzern mit einer Genauigkeit von 96,7 Prozent identifizieren. Die Daten selbst sind über eine API praktisch von jedermann abrufbar.

Björn GreifRedakteur

Wusstest du, dass du mit jedem Tweet unbemerkt bis zu 144 verschiedene Metadaten übermittelst, anhand derer du sehr leicht identifiziert werden kannst? Das zeigt eine gemeinsame Forschungsarbeit des Alan Turing Institute und des University College in London, die jetzt unter dem Titel „You are your Metadata: Identification and Obfuscation of Social Media Users using Metadata Information“ veröffentlicht wurde.

Den Forschern zufolge enthält jeder Tweet abgesehen von der eigentlichen Nachricht etwa 144 Metadatenfelder, deren Inhalt über die Twitter-API frei zugänglich ist: „Jedes dieser Felder liefert zusätzliche Informationen über: das Konto, von dem gepostet wurde; den Post (z.B. Zeitpunkt, Anzahl der Ansichten); andere in der Nachricht erwähnte Tweets; verschiedene Elemente (z.B. Hashtags, URLs, etc.); und die Informationen anderer Nutzer, die darin direkt genannt werden.“ Egal wie anonym sich ein Twitter-Nutzer wähnt, meist genügt ein Blick in die Metadaten, um seine Tweets zu ihm zurückzuverfolgen und seinen Alltag zu rekonstruieren.

Anonymisierung von Daten weitestgehend nutzlos

Für ihre Untersuchung trainierten die Forscher drei verschiedene Maschinenlernsysteme mit Daten von 5 Millionen Twitter-Nutzern. Die Systeme werteten 14 unterschiedliche Metadaten ihrer Tweets aus, darunter den Zeitpunkt der Kontoerstellung, den Veröffentlichungszeitpunkt eines Tweets sowie die Anzahl Favoriten, Follower und Nutzer, denen der User selbst folgt.

Anhand dieser Daten konnten die Systeme jeden in einer Gruppe von 10.000 Twitter-Nutzern mit einer Genauigkeit von 96,7 Prozent identifizieren. Selbst wenn 60 Prozent des Datensatzes verschleiert wurden, lag die Trefferquote noch bei 95 Prozent. Das zeigt, dass eine nachträgliche Anonymisierung praktisch nutzlos ist, wenn einmal personenidentifizierbare Informationen gesammelt wurden.

Metadaten verraten mehr über dich, als du glaubst

„Die Leute gehen fälschlicherweise davon aus, dass sie nicht identifiziert werden können, weil ihre Daten online sind“, sagte Beatrice Perez, eine an der Untersuchung beteiligte Forscherin des University College London, gegenüber Wired. Kein vernünftiger Mensch würde einem Wildfremden auf der Straße erzählen, wo er wohnt, aber vielleicht, wie häufig er sein Schlafzimmerlicht ein- und ausschaltet. „Das ist die Mentalität bezüglich Metadaten“, so Perez. „Die Leute glauben, dass dies keine große Sache ist. Aber wenn ich [diese Angabe] mit einer anderen Information verknüpfe, weiß ich genau, wann du zu Hause bist oder nicht.“ Die meisten Leute seien sich einfach nicht bewusst, dass sie mittels Metadaten sehr leicht identifiziert werden können.

Die Forscher hoffen nach eigenen Angaben, dass ihre Arbeit dazu beitragen wird, das Bewusstsein für die mit Metadaten verbundenen Privatsphärerisiken zu schärfen. Ihre Methoden lassen sich nicht nur auf Twitter, sondern ebenso auf viele andere Plattformen und Systeme anwenden, die ähnliche Metadaten sammeln. Besonders problematisch wird es, wenn solche Metadaten über APIs öffentlich zugänglich sind. Denn dann kann theoretisch jeder sie dazu missbrauchen, Einzelpersonen zu identifizieren.

Im Gegensatz zu den meisten anderen Internetunternehmen speichert Cliqz grundsätzlich keinerlei Daten, anhand derer User identifiziert und Nutzerprofile erstellt werden könnten. Das stellt unsere Privacy-by-Design-Architektur sicher. Unserer Meinung nach ist Datenvermeidung der beste Schutz.


CLIQZ FÜR MOBILE