Wie das Facebook-Targeting-Modell von Cambridge Analytica wirklich funktioniert hat

Wie das Facebook-Targeting-Modell von Cambridge Analytica wirklich funktioniert hatWie genau können Sie online profiliert werden? Andrew Krasovitckii / Shutterstock.com

Der Forscher, dessen Arbeit im Mittelpunkt des Facebook-Cambridge Analytica Datenanalyse und politischer Werbeaufstand hat gezeigt, dass seine Methode ähnlich wie die eine funktionierte Netflix empfiehlt, Filme zu empfehlen.

In einer E-Mail an mich erklärte der Universitätswissenschaftler Aleksandr Kogan, wie sein statistisches Modell Facebook-Daten für Cambridge Analytica verarbeitet habe. Die Genauigkeit, die er behauptet, deutet darauf hin, dass es genauso gut funktioniert Wähler-Targeting-Methoden etabliert basierend auf Demografie wie Rasse, Alter und Geschlecht.

Wenn bestätigt, würde Kogans Bericht bedeuten, dass die digitale Modellierung, die Cambridge Analytica verwendete, war kaum die virtuelle Kristallkugel ein paar haben behauptet. Doch die Nummern bietet Kogan zeige auch was ist - und ist nicht - eigentlich möglich by Kombinieren von persönlichen Daten mit maschinellem Lernen für politische Zwecke.

In Bezug auf ein zentrales Anliegen der Öffentlichkeit deuten die Zahlen von Kogan jedoch darauf hin, dass Informationen über die Persönlichkeit der Nutzer oder "Psychoanalyse"War nur ein bescheidener Teil davon, wie das Modell auf die Bürger abzielte. Es war kein streng genommenes Persönlichkeitsmodell, sondern eher eine, die Demographie, soziale Einflüsse, Persönlichkeit und alles andere zu einem großen zusammenhängenden Klumpen zusammenfasste. Dieser Ansatz, bei dem alles auf die richtige Korrelation und den Ruf nach Persönlichkeit gerichtet ist, scheint ein wertvolles Kampagnentool geschaffen zu haben, selbst wenn das Produkt nicht ganz so verkauft wurde, wie es berechnet wurde.

Das Versprechen der Persönlichkeitsausrichtung

Im Gefolge der Enthüllungen, die die Trump Kampagne Berater Cambridge Analytica verwendet Daten von 50 Millionen Facebook-Nutzer Während der 2016 US-Präsidentschaftswahl soll Facebook digitale Werbung ausrichten Milliarden an Börsenwert verlorenRegierungen auf beide Seiten des Atlantiks haben eröffnete Untersuchungenund ein im Entstehen begriffener soziale Bewegung ruft die Benutzer auf #LöschenFacebook.

Eine Schlüsselfrage blieb jedoch unbeantwortet: War Cambridge Analytica wirklich in der Lage, Kampagnenbotschaften für die Bürger anhand ihrer Persönlichkeitsmerkmale - oder sogar ihrer "innere Dämonen, "Wie ein Unternehmen Whistleblower behauptet?

Wenn jemand wissen würde, was Cambridge Analytica mit seinem riesigen Fund an Facebook-Daten getan hat, wären es Aleksandr Kogan und Joseph Chancellor. es war ihr Startup Global Science Research das sammelte Profilinformationen von 270,000 Facebook-Nutzer und viele Millionen ihrer Freunde mit einer Persönlichkeitstest-App namens "thisisyourdigitallife".

Ein Teil meine eigene Forschung konzentriert sich auf das Verständnis Maschinelles Lernen Methoden und mein bevorstehendes Buch diskutiert, wie digitale Firmen Empfehlungsmodelle zum Aufbau von Zielgruppen verwenden. Ich hatte eine Ahnung, wie das Modell von Kogan und Kanzler funktioniert hat.

Also habe ich Kogan gemailt, um zu fragen. Kogan ist immer noch ein Forscher an der Universität Cambridge; sein Mitarbeiter Kanzler arbeitet jetzt bei Facebook. In einer bemerkenswerten Demonstration akademischer Höflichkeit antwortete Kogan.

Seine Antwort erfordert etwas Auspacken und etwas Hintergrundwissen.

Vom Netflix-Preis zur "Psychometrie"

Zurück in 2006, als es noch eine DVD-per-Mail-Firma war, bot Netflix ein Belohnung von $ 1 Millionen für jeden, der eine bessere Möglichkeit entwickelt hat, Vorhersagen über die Filmrankings der Nutzer zu treffen, als das Unternehmen bereits hatte. Ein überraschender Spitzenkonkurrent war ein unabhängiger Softwareentwickler unter dem Pseudonym Simon Funk, deren grundsätzliche Herangehensweise letztlich in allen Einsätzen der Topteams enthalten war. Funk adaptierte eine Technik namens "Einzelwertzerlegung, "Die Nutzerbewertungen von Filmen in ein Reihe von Faktoren oder Komponenten - im Wesentlichen eine Reihe von abgeleiteten Kategorien, nach Wichtigkeit geordnet. Als Funk erklärt in einem Blogbeitrag,

"Zum Beispiel könnte eine Kategorie Actionfilme darstellen, mit Filmen mit viel Action an der Spitze und langsamen Filmen am unteren Rand, und entsprechend Benutzern, die Actionfilme an der Spitze mögen, und denen, die langsame Filme am liebsten mögen Unterseite."

Faktoren sind künstliche Kategorien, die nicht immer der Art von Kategorien entsprechen, mit denen Menschen aufwarten würden. Das wichtigster Faktor in Funks frühem Netflix-Modell wurde von Usern definiert, die Filme wie "Pearl Harbor" und "The Wedding Planner" liebten, aber auch Filme wie "Lost in Translation" oder "Eternal Sunshine of the Spotless Mind". Sein Modell zeigte, wie maschinelles Lernen Korrelationen zwischen Gruppen finden kann Menschen und Gruppen von Filmen, die die Menschen selbst nie sehen würden.

Der allgemeine Ansatz von Funk verwendete die wichtigsten Faktoren 50 oder 100 sowohl für Benutzer als auch für Filme, um eine vernünftige Schätzung zu treffen, wie jeder Benutzer jeden Film bewerten würde. Diese Methode wird oft genannt Dimensionalitätsreduktion oder Matrix-Faktorisierung, war nicht neu. Politikwissenschaftler hatten das gezeigt ähnliche Techniken unter Verwendung von Roll-Call-Abstimmungsdaten könnte die Stimmen der Kongressmitglieder mit 90 Prozentgenauigkeit voraussagen. In der Psychologie "Große Fünf"Das Modell wurde auch verwendet, um Verhalten vorherzusagen, indem man Persönlichkeitsfragen zusammenstellte, die ähnlich beantwortet wurden.

Dennoch war Funks Modell ein großer Fortschritt: Es ermöglichte der Technik, mit großen Datenmengen gut zu arbeiten, sogar mit vielen fehlenden Daten - wie der Netflix-Datensatz, bei dem ein typischer Benutzer nur wenige Dutzend von Tausenden von Filmen im Unternehmen bewertete Bibliothek. Mehr als ein Jahrzehnt nach dem Ende des Netflix-Preiswettbewerbs SVD-basierte Methoden, oder verwandte Modelle für implizite Daten, sind immer noch das Werkzeug der Wahl für viele Websites, um vorherzusagen, was Benutzer lesen, schauen oder kaufen werden.

Diese Modelle können auch andere Dinge vorhersagen.

Facebook weiß, ob Sie ein Republikaner sind

In 2013 veröffentlichten die Forscher der Universität Cambridge Michal Kosinski, David Stillwell und Thore Graepel einen Artikel über die Vorhersagekraft von Facebook-Datenunter Verwendung von Informationen, die durch einen Online-Persönlichkeitstest gesammelt wurden. Ihre anfängliche Analyse war fast identisch mit der auf dem Netflix-Preis verwendeten und verwendete SVD, um sowohl Benutzer als auch Dinge, die ihnen "gefielen", in die Top-100-Faktoren zu kategorisieren.

Das Papier zeigte, dass ein Faktormodell, das mit den Facebook "Likes" der Nutzer erstellt wurde, allein war 95 Prozent genau bei der Unterscheidung zwischen schwarzen und weißen Befragten, 93 Prozent genau bei der Unterscheidung von Männern von Frauen, und 88 Prozent genau bei der Unterscheidung von Menschen, die als schwule Männer identifiziert von Männern, die als gerade identifiziert. Es könnte sogar Republikaner von Demokraten 85 Prozent der Zeit richtig unterscheiden. Es war auch nützlich, obwohl nicht so genau, für Vorhersage der Nutzerzahlen auf dem "Big Five" Persönlichkeitstest.

Es gab öffentlicher Aufschrei In Beantwortung; innerhalb weniger Wochen hatte Facebook machte Benutzer mag privat standardmäßig.

Kogan und Chancellor, damals auch Forscher der Universität Cambridge, begannen im Rahmen einer Zusammenarbeit mit Cambridge Analyticas Mutterfirma SCL, Facebook-Daten für das Wahl-Targeting zu verwenden. Kogan lud Kosinski und Stillwell ein, sich seinem Projekt anzuschließen, aber es hat nicht geklappt. Kosinski vermutete, dass Kogan und Chancellor dies haben könnten Reverse-Engineered das Facebook "Likes" -Modell für Cambridge Analytica. Kogan bestritt dies und sagte sein Projekt "baute alle unsere Modelle Verwendung unserer eigenen Daten, die mit unserer eigenen Software gesammelt wurden. "

Was haben Kogan und Kanzler eigentlich gemacht?

Als ich die Entwicklungen in der Geschichte verfolgte, wurde mir klar, dass Kogan und Kanzler tatsächlich viele eigene Daten über die thisisyourdigitallife App gesammelt hatten. Sie hätten sicherlich ein prädiktives SVD-Modell wie das von Kosinski und Stillwell veröffentlichte Forschung entwickelt.

Also habe ich Kogan gemailt und gefragt, ob er das getan hat. Zu meiner Überraschung schrieb er zurück.

"Wir haben SVD nicht genau benutzt", schrieb er und stellte fest, dass SVD Probleme haben könnte, wenn einige Nutzer mehr "Likes" haben als andere. Stattdessen erklärte Kogan: "Die Technik haben wir eigentlich selbst entwickelt ... Es ist nicht etwas, das öffentlich zugänglich ist." Ohne ins Detail zu gehen, beschrieb Kogan ihre Methode als "einen Schritt in die Zukunft" gemeinsames Auftreten Ansatz."

Seine Botschaft bestätigte jedoch, dass sein Ansatz SVD oder anderen Matrix-Faktorisierungsmethoden wie dem Netflix-Preiswettbewerb und dem Kosinki-Stillwell-Graepel-Facebook-Modell tatsächlich ähnlich war. Die Dimensionalitätsreduktion von Facebook-Daten war der Kern seines Modells.

Wie genau war das?

Kogan schlug vor, dass das genaue verwendete Modell nicht viel ausmacht, aber was zählt, ist die Genauigkeit seiner Vorhersagen. Laut Kogan lag die "Korrelation zwischen vorhergesagten und tatsächlichen Bewertungen ... bei [30 Prozent] für alle Persönlichkeitsdimensionen." Im Vergleich dazu sind die vorherigen Big Five-Ergebnisse einer Person ungefähr 70 zu 80 Prozent genau bei der Vorhersage ihrer Ergebnisse, wenn sie den Test wiederholen.

Kogans Genauigkeitsansprüche können natürlich nicht unabhängig verifiziert werden. Und jeder, der sich mitten in einem derart aufsehenerregenden Skandal befindet, könnte einen Anreiz haben, seinen Beitrag zu unterschätzen. In seinem Auftritt auf CNNKogan erklärte einem zunehmend ungläubigen Anderson Cooper, dass die Modelle tatsächlich nicht sehr gut funktionierten.

Aleksandr Kogan beantwortet Fragen zu CNN.

Tatsächlich scheint die Genauigkeit, die Kogan behauptet, ein bisschen niedrig, aber plausibel. Kosinski, Stillwell und Graepel berichteten vergleichbare oder etwas bessere Ergebnisse, ebenso wie mehrere andere akademische Studien Nutzung digitaler Fußabdrücke zur Vorhersage der Persönlichkeit (obwohl einige dieser Studien mehr Daten aufwiesen als nur Facebook "likes"). Es ist überraschend, dass Kogan und Chancellor sich die Mühe machen würden, ihr eigenes proprietäres Modell zu entwickeln, wenn Standardlösungen genauso genau zu sein scheinen.

Wichtig ist jedoch, dass die Genauigkeit des Modells bei den Persönlichkeitswerten Vergleiche der Ergebnisse von Kogan mit anderen Untersuchungen ermöglicht. Veröffentlichte Modelle mit gleicher Genauigkeit bei der Vorhersage von Persönlichkeit sind alle viel genauer beim Erraten von Demographie und politischen Variablen.

Zum Beispiel war das ähnliche Kosinski-Stillwell-Graepel-SVD-Modell 85-Prozent genau im Raten von Parteizugehörigkeit, auch ohne Profilinformationen außer Likes zu verwenden. Kogans Modell hatte eine ähnliche oder bessere Genauigkeit. Wenn Sie nur eine kleine Menge an Informationen über die Demographie von Freunden oder Nutzern hinzufügen, erhöht sich diese Genauigkeit wahrscheinlich um mehr als 90. Vermutungen über Geschlecht, Rasse, sexuelle Orientierung und andere Eigenschaften würden wahrscheinlich auch mehr als 90 Prozent genau sein.

Kritisch betrachtet, wären diese Vermutungen besonders gut für die aktivsten Facebook-Nutzer - die Personen, auf die das Modell in erster Linie ausgerichtet war. Benutzer mit weniger Aktivität analysieren wahrscheinlich sowieso nicht auf Facebook.

Wenn Psychographie meist demografisch ist

Zu wissen, wie das Modell aufgebaut ist, erklärt die offensichtlich widersprüchlichen Aussagen von Cambridge Analytica die Rolle - oder deren Fehlen - Diese Persönlichkeitsprofile und Psychografien spielten in ihrer Modellierung. Sie sind alle technisch konsistent mit dem, was Kogan beschreibt.

Ein Modell wie Kogan würde Schätzungen für jede verfügbare Variable für jede Benutzergruppe liefern. Das bedeutet automatisch Schätze die Big Five-Persönlichkeitswerte für jeden Wähler. Aber diese Persönlichkeitswerte sind die Ausgabe des Modells, nicht die Eingabe. Das ganze Modell weiß, dass bestimmte Facebook-Likes und bestimmte Nutzer dazu neigen, sich zu gruppieren.

Mit diesem Modell könnte Cambridge Analytica sagen, dass es Menschen mit geringer Offenheit für Erfahrung und hohem Neurotizismus identifiziert. Aber das gleiche Modell, mit den exakt gleichen Vorhersagen für jeden Benutzer, könnte ebenso genau behaupten, weniger gebildete ältere republikanische Männer zu identifizieren.

Kogans Informationen helfen auch, die Verwirrung darüber zu klären, ob Cambridge Analytica hat tatsächlich seinen Fund gelöscht von Facebook-Daten, wenn Modelle aus den Daten aufgebaut werden scheinen immer noch im Umlauf zu seinUnd sogar weiterentwickelt werden.

Das GesprächDer Sinn eines Dimensionsreduktionsmodells besteht darin, die Daten in einfacher Form mathematisch darzustellen. Es ist, als hätte Cambridge Analytica ein Foto mit sehr hoher Auflösung aufgenommen, es verkleinert und dann das Original gelöscht. Das Foto existiert immer noch - und so lange die Modelle von Cambridge Analytica existieren, sind es auch die Daten.

Über den Autor

Matthew Hindman, Associate Professor für Medien und öffentliche Angelegenheiten, George Washington Universität

Dieser Artikel wurde ursprünglich veröffentlicht am Das Gespräch.. Lies das Original Artikel.

Bücher zum Thema

{amazonWS: searchindex = Books; Keywords = Online-Datenschutz; maxresults = 3}

enafarzh-CNzh-TWnltlfifrdehiiditjakomsnofaptruessvtrvi

Folge InnerSelf weiter

facebook-icontwitter-iconRSS-Symbol

Holen Sie sich das Neueste per E-Mail

{Emailcloak = off}