Synthetische Daten

Welche Vorteile die Doppelgängerstadt bringt

Uhr
von Pieter Fourie, ETH Zürich

Es ist möglich, Standortdaten von Smartphones zu analysieren, ohne die Privatsphäre der Nutzer zu verletzen. Pieter Fourie, Project Leader of Engaging Mobility an der ETH Zürich, erklärt wie.

(Source: lassedesignen / Fotolia.com)
(Source: lassedesignen / Fotolia.com)

Marketingfirmen besitzen riesige Mengen an Daten aus Smartphone-Apps, die genau zeigen, wo wir uns wann aufgehalten haben. Ein von der New York Times untersuchter Datensatz umfasst alleine für den Grossraum New York und den Zeitraum von drei Tagen 235 Millionen Standortdatenpunkte von 1,2 Millionen Mobilgeräten. In einem lesenswerten Artikel und einer Podcast-Episode zeigte uns die Zeitung im vergangenen Dezember auf, wie einzelne Personen verwundbar sind, wenn persönliche Daten massenhaft an den Meistbietenden verkauft werden. Sie offenbarte die persönlichen, wirtschaftlichen und gesellschaftlichen Dimensionen des Handels mit Standortdaten und wies drauf hin, dass es diesem Wirtschaftszweig an Regulation mangelt.

Für manche, die dem Thema bislang eher gleichgültig gegenüberstanden, dürften die genannten grossen Zahlen einen Alptraum Orwell'schen Ausmasses darstellen. Als Mobilitätsforscher im Zeitalter von Big Data gewöhnt man sich jedoch schnell an solche Grössenordnungen. Anstatt gleich den Untergang der Privatsphäre heraufzubeschwören, kann man diese Daten auch als Chance sehen: Zum Beispiel für den Aufbau besserer Modelle, mit denen wir Mobilitätsfragen untersuchen können. Es ist nämlich möglich, solche Trackingdaten zu nutzen und gleichzeitig die Privatsphäre der Menschen zu schützen.

Ein endloser Wettlauf

Es gibt mehrere Ansätze, dies zu tun. Die Firmen, welche mit Standortdaten handeln, behaupteten gegenüber der New York Times, dass sie die Daten stets in aggregierter oder anonymisierter Form verwendeten. Konkret: Entweder werden Datenpunkte so gebündelt, dass Personen nicht mehr voneinander unterscheidbar sind, oder die identifizierende Informationen wird "maskiert", also bewusst verändert.

Bei Bewegungsdaten von Personen ist die Anonymisierung jedoch gar nicht so einfach. Wenn neue Anonymisierungs- und Maskierungstechnologien entwickelt werden, ist es oft auch möglich, Algorithmen zur Deanonymisierung zu entwickeln, mit denen die Spuren einzelner Personen wieder rekonstruiert werden können. Das heisst, es ist nie auszuschliessen, dass meine Privatsphäre im endlosen Wettlauf zwischen Datenschutz und Hackerattacke irgendwann trotzdem verletzt wird.

Synthetische Daten als Alternative

In unserem Team im Future Cities Laboratory erforschen wir daher Alternativen zu den herkömmlichen Methoden der Standortmaskierung. Wir fragten uns: Ist es möglich, künstliche Ortsdatenströme zu erzeugen mit derselben zeitlichen und räumlichen Auflösung wie das auch Smartphones machen, ohne jedoch einen echten, von einer Person zurückgelegten Bewegungspfad zu reproduzieren?

In der Praxis gibt es nämlich nur sehr wenige Fälle, in denen man zur Analyse von Mobilitätsdaten Zugang zu den detaillierten Originaldaten einer bestimmten Person benötigt. Oft ist es genauso gut möglich, mit einem bewusst veränderten Datensatz zu arbeiten. Wir generieren solche synthetischen Datenströme aus Rohdaten, wobei die Rohdaten nur vom Computer bearbeitet werden und für die Anwender unsichtbar bleiben.

In einer ‹Doppelgänger-Stadt› können Verkehrsmassnahmen getestet werden, während die Menschen in der realen Welt unbehelligt bleiben.

Synthetische Daten entstehen in mehreren Schritten: Die Standortrohdaten der Mobilgeräte werden sicher und verschlüsselt übertragen und in geprüfter und zertifizierter Weise zu Datenaggregaten zusammengefasst. Diese Aggregate kann man anschliessend verwenden, um synthetische Mobilitätsdaten zu erzeugen, die sich in ihren statistischen Eigenschaften nicht von den realen Daten unterscheiden. In unserem Labor arbeiten wir derzeit an zwei verschiedenen Methoden (1 | 2), um dies umzusetzen.

Diese Techniken sind nicht nur ein Fortschritt bei der Wahrung der Privatsphäre, sondern sie erweitern auch das Potenzial der Verkehrsmodellierung: Man kann die synthetischen Daten in moderne Mobilitätssimulationen einspeisen. So ist es möglich, eine ganze "Doppelgänger-Stadt" zu schaffen, in der die Auswirkungen politischer Entscheidungen erforscht und Verkehrsmassnahmen getestet werden können, während die Menschen in der realen Welt unbehelligt bleiben.

Dieser Artikel erschien zuerst bei ETH Zürich.

Webcode
DPF8_131659