Wie deine Freunde auf Twitter dir deine Anonymität weggeben können

Wenn Sie im Internet surfen, verfolgen Online-Werbetreibende fast jede Website, die Sie besuchen, eine Fülle von Informationen über Ihre Gewohnheiten und Vorlieben sammeln. Wenn du eine Nachrichtenseite besuchst, sehen sie vielleicht, dass du ein Fan von Basketball-, Opern- und Krimisromanen bist, und wähle dementsprechend Anzeigen, die auf deinen Geschmack zugeschnitten sind.

Werbetreibende verwenden diese Informationen, um sehr personalisierte Erfahrungen zu erstellen, aber sie wissen normalerweise nicht genau, wer Sie sind. Sie beobachten nur Ihre digitale Spur, nicht Ihre Identität selbst, und so haben Sie vielleicht das Gefühl, dass Sie ein gewisses Maß an Anonymität bewahrt haben.

Aber in einem Papier, das ich mitautoriert habe mit Ansh Shukla, Sharad Goel und Arvind Narayananzeigen wir, dass diese anonymen Webbrowsing-Datensätze tatsächlich oft mit realen Identitäten verknüpft werden können.

Um unseren Ansatz zu testen, haben wir gebaut eine Website wo Leute ihre Browsergeschichte für die Zwecke dieser Studie spenden konnten. Wir haben dann versucht, zu sehen, ob wir ihre Geschichten mit ihren öffentlich zugänglichen Daten auf ihre Twitter-Profile zurückführen können. Zweiundsiebzig Prozent der Menschen, die wir zu entnonymisieren versuchten, wurden in den Suchergebnissen korrekt als Top-Kandidaten identifiziert, und 81-Prozent gehörten zu den besten 15-Kandidaten.

privacy2 2 8Screenshots der Deanonymisierungs-Website.

Dies ist unseres Wissens die bisher größte Demonstration der Deanonymisierung, da sie den richtigen Nutzer aus Hunderten von Millionen möglicher Twitter-Nutzer auswählt. Darüber hinaus erfordert unsere Methode nur, dass eine Person auf die in ihren Social Media-Feeds angezeigten Links klickt und nicht, dass sie Inhalte posten - also sind auch Leute, die vorsichtig mit dem sind, was sie im Internet teilen, anfällig für diesen Angriff.


Innerself-Abonnieren-Grafik


So funktioniert's

Auf hohem Niveau basiert unser Ansatz auf einer einfachen Beobachtung. Jede Person hat ein sehr ausgeprägtes soziales Netzwerk, bestehend aus Familie und Freunden aus der Schule, der Arbeit und verschiedenen Phasen ihres Lebens. Folglich ist die Menge der Links in Ihren Facebook- und Twitter-Feeds sehr unterschiedlich. Wenn Sie auf diese Links klicken, wird Ihr Browserverlauf deutlich sichtbar.

Indem wir uns die Webseiten angesehen haben, die eine Person besucht hat, konnten wir ähnliche Social-Media-Feeds heraussuchen und eine Liste von Kandidaten erstellen, die wahrscheinlich diesen Web-Browsing-Verlauf generiert haben. Auf diese Weise können wir die reale Identität einer Person mit den nahezu vollständigen Links verknüpfen, die sie besucht haben, einschließlich Links, die nie auf einer Social-Media-Website veröffentlicht wurden.

Die Durchführung dieser Strategie beinhaltet zwei wesentliche Herausforderungen. Der erste ist theoretisch: Wie quantifiziert man, wie ähnlich ein bestimmter Social-Media-Feed einem bestimmten Browserverlauf entspricht? Eine einfache Möglichkeit besteht darin, den Anteil der Links im Browserverlauf zu messen, die auch im Feed angezeigt werden. Dies funktioniert in der Praxis recht gut, aber es überschätzt die Ähnlichkeit für große Feeds, da diese einfach mehr Links enthalten. Wir nehmen stattdessen einen alternativen Ansatz. Wir stellen ein stilisiertes, probabilistisches Modell des Browsing-Verhaltens im Internet auf und berechnen dann die Wahrscheinlichkeit, mit der ein Nutzer mit diesem Social-Media-Feed den beobachteten Browserverlauf generiert hat. Dann wählen wir den Social-Media-Feed, der am wahrscheinlichsten ist.

Die zweite Herausforderung besteht darin, die ähnlichsten Feeds in Echtzeit zu identifizieren. Hier wenden wir uns an Twitter, da Twitter-Feeds (im Gegensatz zu Facebook) weitgehend öffentlich sind. Obwohl die Feeds öffentlich sind, können wir nicht einfach eine lokale Kopie von Twitter erstellen, auf der wir unsere Abfragen ausführen können. Stattdessen wenden wir eine Reihe von Techniken an, um den Suchraum drastisch zu reduzieren. Wir kombinieren dann Caching-Techniken mit On-Demand-Netzwerk-Crawls, um die Feeds der vielversprechendsten Kandidaten zu erstellen. Auf dieser reduzierten Kandidatenmenge wenden wir unser Ähnlichkeitsmaß an, um die Endergebnisse zu erhalten. Angesichts eines Browserverlaufs können wir diesen gesamten Prozess typischerweise in weniger als 60 Sekunden durchführen.

Unsere Methode ist genauer für Leute, die Twitter aktiver durchsuchen. Neunzig Prozent der Teilnehmer, die 100 oder mehr Links auf Twitter angeklickt hatten, konnten mit ihrer Identität abgeglichen werden.

Viele Unternehmen haben die Tracking-Ressourcen, um einen Angriff wie diesen auch ohne Zustimmung des Teilnehmers durchzuführen. Wir haben versucht, jeden unserer Versuchsteilnehmer zu anonymisieren, indem wir nur die Teile seiner Browserverläufe verwendeten, die für bestimmte Verfolgungsunternehmen sichtbar waren (da die Unternehmen Verfolger auf diesen Seiten haben). Wir stellten fest, dass mehrere Unternehmen die Ressourcen zur genauen Identifizierung der Teilnehmer hatten.

Privatsphäre 2 8Andere Deanonymisierungsstudien

Mehrere andere Studien haben öffentlich verfügbare Fußabdrücke verwendet, um sensible Daten zu entanonymisieren.

Vielleicht wurde die berühmteste Studie in dieser Richtung von Latanya Sweeney an der Harvard Universität in 2002. Sie hat das entdeckt 87 Prozent der Amerikaner waren eindeutig identifizierbar basierend auf einer Kombination aus Postleitzahl, Geschlecht und Geburtsdatum. Diese drei Attribute waren sowohl in öffentlichen Wählerregistrierungsdaten (die sie für US $ 20 gekauft hatte) als auch in anonymen medizinischen Daten (die weit verbreitet waren, weil die Leute dachten, dass die Daten anonym waren) verfügbar. Durch das Verbinden dieser Datenquellen fand sie die medizinischen Aufzeichnungen des Gouverneurs von Massachusetts.

In 2006, Netflix hat einen Wettbewerb durchgeführt um die Qualität seiner Filmempfehlungen zu verbessern. Sie veröffentlichten einen anonymisierten Datensatz der Filmbewertungen von Menschen und boten dem Team $ 1 Millionen an, die ihren Empfehlungsalgorithmus um 10 Prozent verbessern konnten. Informatiker Arvind Narayanan und Vitaly Shmatikov bemerkte, dass die Filme, die die Leute sahen, sehr unterscheidungskräftig waren und die meisten Menschen im Datensatz eindeutig identifizierbar waren, basierend auf einer kleinen Teilmenge ihrer Filme. Mit anderen Worten, auf der Grundlage der Netflix-Filmauswahl und der IMDB-Überprüfungen konnten die Forscher feststellen, wer diese Netflix-Benutzer tatsächlich waren.

Mit dem Aufkommen von sozialen Medien teilen immer mehr Menschen Informationen, die harmlos erscheinen, aber tatsächlich viele persönliche Informationen offenbaren. Eine Studie von Michal Kosinski an der University of Cambridge verwendete Facebook gerne Leute sexuelle Orientierung, politische Ansichten und Persönlichkeitsmerkmale.

Ein anderes Team, geführt von Gilbert Wondracek an der Technischen Universität Wien, baute eine "Deanonymisierungsmaschine", die herausfand, welchen Gruppen Menschen im sozialen Netzwerk Xing angehörten, und sie nutzten dies, um herauszufinden, wer sie waren - da die Gruppen, in denen Sie Teil sind, oft genug sind, um sie eindeutig zu identifizieren Sie.

Was Sie tun können

Die meisten dieser Angriffe sind schwierig zu verteidigen, es sei denn, Sie hören auf, das Internet zu nutzen oder am öffentlichen Leben teilzunehmen.

Auch wenn Sie aufhören, das Internet zu nutzen, können Unternehmen noch Daten über Sie sammeln. Wenn mehrere Ihrer Freunde ihre Telefonkontakte auf Facebook hochladen und Ihre Nummer in allen ihren Kontaktlisten steht, kann Facebook Vorhersagen über Sie treffen, auch wenn Sie den Dienst nicht nutzen.

Der beste Weg, sich gegen Deanonymisierungsalgorithmen wie unseren zu verteidigen, besteht darin, die Anzahl der Personen einzuschränken, die Zugriff auf Ihre anonymen Browserdaten haben. Browser-Erweiterungen wie Ghostery Blockieren von Drittanbieter-Trackern. Das heißt, selbst wenn das Unternehmen, dessen Website Sie besuchen, weiß, dass Sie es besuchen, können Werbefirmen, die Anzeigen auf ihrer Seite schalten, Ihre Browserdaten nicht sammeln und sie nicht auf mehreren Websites zusammenfassen.

Wenn Sie ein Webmaster sind, können Sie Ihre Benutzer schützen, indem Sie sie mit Ihrer Website durchsuchen lassen HTTPS. Durch das Browsen mit HTTP können Angreifer Ihren Browserverlauf abrufen, indem sie den Netzwerkverkehr schnüffeln, wodurch sie diesen Angriff ausführen können. Viele Websites sind bereits auf HTTPS umgestellt; Als wir unser Deanonymisierungsexperiment aus der Perspektive eines Netzwerk-Traffic-Sniffers wiederholten, konnten nur 31-Prozent der Teilnehmer dekanonymisiert werden.

Es gibt jedoch sehr wenig, was Sie tun können, um sich vor Deanonymisierungsangriffen im Allgemeinen zu schützen, und vielleicht ist die beste Vorgehensweise, die eigenen Erwartungen anzupassen. Nichts ist privat in diesem digitalen Zeitalter.

Über den Autor

Jessica Su, Ph.D. Student in Stanford, Stanford University

Dieser Artikel wurde ursprünglich veröffentlicht am Das Gespräch.. Lies das Original Artikel.

Bücher zum Thema

at InnerSelf Market und Amazon