Wie künstliche Intelligenz aus komplexen Netzen lernt
Tiefe neuronale Netze haben in Wissenschaft und Technik bemerkenswerte Ergebnisse erzielt, aber es ist weitgehend unklar, warum sie so gut funktionieren. Eine neue Studie gibt Aufschluss über die Funktionsweise von Deep-Learning-Modellen, die aus relationalen Datensätzen lernen, wie sie in biologischen und sozialen Netzwerken vorkommen.
Graphische neuronale Netze (GNN) sind künstliche neuronale Netze, die zur Darstellung von Entitäten – wie Individuen, Molekülen oder Städten – und der Interaktionen zwischen ihnen entwickelt wurden. Die praktische Anwendung dieser Netzwerke reicht von der Vorhersage von Verkehrsströmen in Google Maps bis hin zur schnelleren Entdeckung neuer Antibiotika in computergestützten Programmen zur Wirkstoffentwicklung.
GNNs werden unter anderem von AlphaFold verwendet, einem KI-System, das sich mit dem komplexen Problem der Proteinfaltung in der Biologie befasst. Trotz dieser beeindruckenden Leistungen sind die grundlegenden Prinzipien, die dem Erfolg von GNNs zugrunde liegen, nur unzulänglich verstanden.
Eine kürzlich erschienene Studie beleuchtet, wie diese KI-Algorithmen Wissen aus komplexen Netzwerken extrahieren, und zeigt Wege auf, um ihre Leistung in verschiedenen Anwendungen zu verbessern.
Vom besseren Verständnis zur besseren Leistung
Laut der Studie zeigen moderne Deep-Learning-Modelle mit Millionen oder Milliarden von Parametern ein seltsames Verhalten, das als "doppelter Abstieg" bekannt ist. Dabei handelt es sich um das Phänomen, dass das Hinzufügen weiterer Daten paradoxerweise die Leistung eines Modells verschlechtern kann. GNNs scheinen diesem Trend jedoch zu trotzen.
Das Forscherteam unter der Leitung von Professor Ivan Dokmanić von der Universität Basel nutzte Analyseinstrumente aus der statistischen Mechanik, um zu zeigen, dass der "doppelter Abstieg" in GNNs tatsächlich allgegenwärtig ist. Sie identifizierten eine Schlüsseldeterminante, die beeinflusst, wie GNNs lernen, nämlich ob die Datensätze und Netzwerke homophil sind, wie in sozialen Netzwerken, in denen sich Gleichgesinnte verbinden, oder ob sie heterophil sind wie in Protein-Interaktionsnetzwerken, in denen komplementäre Proteine interagieren.
Die Ergebnisse zeigen, dass der Grad der Homophilie bzw. Heterophilie eines Netzwerks erheblich die Fähigkeit eines maschinellen Lernmodells beeinflusst, das Gelernte auf neue, unbekannte Daten anzuwenden.
Darüber hinaus konnte das Forscherteam Gründe für das unterschiedliche Verhalten von GNNs bei der Verarbeitung von homophilen und heterophilen Daten aufdecken. Dies ist von grosser Bedeutung für die Entwicklung und das Training besserer GNNs, insbesondere für Problemstellungen mit heterophilen Daten. Diese treten beispielsweise in der Forschung auf, die auf die Weiterentwicklung bekannter Medikamente und Biomarker abzielt, um damit weitere Krankheiten behandeln zu können.
"Unsere Ergebnisse erweitern unser grundlegendes Verständnis davon, wie künstliche Intelligenz aus komplexen Netzwerken lernt. Gleichzeitig liefern sie praktische Richtlinien, wie man bessere Deep Neural Networks für komplexe, reale Daten entwickeln kann", erklärt Ivan Dokmanić. "Diese Erkenntnisse wirken sich auf zahlreiche Bereiche aus, von der Entdeckung von Medikamenten bis hin zur Analyse von sozialen Netzwerken."
Die Studie, die in der Fachzeitschrift PNAS veröffentlicht wurde, nutzt eine Analogie zwischen GNNs und ungeordneten physikalischen Systemen, die als Spin-Gläser bekannt sind, um eine Theorie der Generalisierung in GNNs abzuleiten.
Originalpublikation
Cheng Shi, Liming Pan, Hong Hu, Ivan Dokmanić: Homophily modulates double descent generalization in graph convolution networks. In: Proceedings of the National Academy of Sciences (2024), doi: 10.1073/pnas.2309504121
Dieser Beitrag ist zuerst auf der Website der Universität Basel erschienen.