EPFL-Forscher bringen Machine Learning und Datenschutz zusammen
Forscher der EPFL und des französischen Instituts INRIA haben ein System entwickelt, das die Leistung des föderierten Lernens verbessert. Mit der Technik lässt sich ein zentraler Algorithmus auf verteilten Geräten trainieren, ohne dass die Benutzer ihre Daten preisgeben müssen.
Maschinelles Lernen und Datenschutz scheinen auf den ersten Blick kaum miteinander vereinbar. Wollen wir einen Algorithmus trainieren, müssen wir ihm zwangsläufig unsere persönlichen Daten anvertrauen. Doch es gibt Möglichkeiten, um sowohl intelligente Tools zu trainieren als auch den legitimen Wunsch nach Datenschutz zu respektieren. Wie dies funktioniert, haben Forschende der ETH Lausanne (EPFL) und des französischen Technik-Forschungsinstituts INRIA unlängst gezeigt – die ersten waren sie damit allerdings nicht. Das bereits 2016 von Google entwickelte Konzept des föderierten Lernens ist eine Möglichkeit, maschinelles Lernen und Datenschutz unter einen Hut zu bringen. Oft wird es mit weiteren Techniken kombiniert, etwa mit sicherem Multiparty-Computing oder mit dem Konzept der differentiellen Privatsphäre.
Föderiertes Lernen in Android-Tastaturen
Beim föderierten Lernen weist ein zentraler Server verschiedene Lernaufgaben einem Satz von Geräten – etwa Smartphones – zu. Diese führen die Aufgaben auf Basis der lokal gespeicherten Daten aus und senden die Ergebnisse zurück an den zentralen Server, der sie aggregiert und das Modell aktualisiert.
Auf vielen Smartphones läuft eine solche Anwendung bereits. Die Google-Tastatur "Gboard", die auf vielen Android-Handys installiert ist, setzt auf föderiertes Lernen, um ihre Textvorschläge zu verbessern. Die Technik hat viele Vorteile: Sie erhöht die Qualität der Textvorschläge, schickt jedoch keine sensiblen Nutzerdaten an andere Server und spart Energie.
Knackpunkt: fortlaufendes Lernen
Doch während sich die Technik des Federated Learning für Anwendungen wie der Android-Tastatur ideal eignet, ist sie für viele andere Szenarien kaum nutzbar, schreiben die Forscher von EPFL und INRIA in ihrem Artikel. Denn meistens setzt föderiertes Lernen eine hohe Verfügbarkeit aller teilnehmenden Geräte voraus. Der Algorithmus der Google-Tastatur wird nur alle 24 Stunden aktualisiert, was für diesen Fall vollkommen ausreicht.
In anderen Fällen jedoch, beispielsweise im Empfehlungs-Algorithmus von sozialen Netzwerken, reicht diese Aktualisierungsrate nicht. Dafür braucht es stattdessen ein fortlaufend aktualisiertes Modell. Um ein solches möglich zu machen, entwickelten die Forscher ein System namens Fleet, welches als Middleware zwischen dem Betriebssystem des Smartphones und der ML-Anwendung fungieren soll.
Die eine Komponente dieses Systems ist ein Tool, welches die Berechnungszeiträume und den Energieverbrauch jeder Lernaufgabe vorhersagt und verwaltet, wobei die einzigartigen Fähigkeiten jedes Geräts berücksichtigt werden. Dabei schaltet es auf eine asynchrone Aktualisierung um. Dies soll die Leistung verbessern und das einzelne Gerät nicht durch ständiges Synchronisieren belasten.
Allerdings besteht bei asynchronen Updates die Gefahr, dass eine auf einem Gerät durchgeführte Lernaufgabe unbrauchbar wird oder die Konvergenz mit einem inzwischen aktualisierten Modell verhindert. Hier setzt die zweite Komponente von "Fleet" an: ein ML-Algorithmus, der dieses Problem toleriert, indem er die Auswirkungen veralteter Ergebnisse auf der Grundlage verschiedener Kriterien abmildert. Gemäss den Forschern gelingt es mit diesem System, die Qualität des föderierten Lernens zu verbessern und gleichzeitig den Akku der beteiligten Smartphones zu schonen.
In einer anderen Studie zeigten Forscher unter der Leitung der EPFL auf, wie schwere Covid-19-Erkrankungen zuverlässiger vorausgesagt werden können. Die Forscher erzeugen dafür einen digitalen Zwilling des Coronapatienten. Doch die Methode könnte auch ausserhalb der Pandemie nützlich sein.