Das läuft mit dem GitHub-Kodierassistenten Copilot falsch
GitHub hat seine Programmierassistenten-Lösung namens Copilot vorgestellt, die in Zusammenarbeit mit OpenAI entwickelt wurde. Das Tool sorgt allerdings für Kontroversen in der Gemeinschaft der Entwickler und KI-Experten. Dies in Bezug auf Fragen des Urheberrechts und auch auf die Qualität des automatisch generierten Codes.
Wird Künstliche Intelligenz (KI) jemals in der Lage sein, Computer so gut zu programmieren, dass sie Entwickler ersetzen kann? Um dies zu erreichen, müssten auf jeden Fall Modelle mit Millionen von Codezeilen trainiert werden, die hoffentlich keine Bugs enthalten ... Aber geht das ohne Urheberrechtsverletzung? Dies sind einige der heiklen Fragen rund um GitHubs Lancierung des Low-Code-Programmierassistenten Copilot, der in Zusammenarbeit mit OpenAI entwickelt wurde.
Open AI ist bekannt für sein GPT-3-Modell zur Verarbeitung natürlicher Sprache und verfügt über ein ausreichendes Funding in Höhe von einer Milliarde US-Dollar durch GitHub-Eigentümerin Microsoft. Für Copilot, das als Erweiterung für Visual Studio Code konzipiert ist, wurde eigens das neuartige KI-Modell OpenAI Codex erstellt. Letzteres wird vom GitHub-CEO als "signifikant besser bei der Generierung von Code als GPT-3 beschrieben, zum Teil weil es auf einem Datensatz mit einer viel höheren Konzentration von öffentlichem Quellcode trainiert wurde." GitHub Copilot verspricht ausserdem, Entwicklern Zeit zu sparen, indem es sowohl Kommentare als auch tatsächlichen Code interpretiert, um Codezeilen oder sogar komplette Funktionen vorzuschlagen.
Common practice vs. fair use
Die Tatsache, dass Copilot aus öffentlichem Code besteht, löst jedoch nicht die Probleme des Urheberrechts, wie einige Entwickler und Experten auf diesem Gebiet meinen. Auf Twitter schreibt etwa Alex Champandard, ein KI-Experte und Mitbegründer von Creative AI, dass er eine subtile Änderung in den Nutzungsbedingungen des Tools bemerkt habe. Am 29. Juni stellte GitHub fest: "Das Trainieren von Machine-Learning-Modellen auf öffentlich verfügbaren Daten ist eine gängige Praxis in der Machine-Learning-Community." Ein paar Tage später wurde die Formulierung "common practice" durch "considered fair use" ersetzt. Nach Ansicht Champandards schafft diese Neudefinition einen Präzedenzfall, der nahelegt, dass die Lizenzbedingungen für Open Source Code, etwa die GPL-Lizenz, in diesem Fall nicht gelten. Diese sogenannte "faire Nutzung" findet jedoch keine Zustimmung in der Open-Source-Gemeinschaft. Dazu muss man wissen, dass Open-Source-Code nur unter bestimmten Bedingungen verwendet und wiederverwendet werden darf. Etwa wenn die Erlaubnis zur kommerziellen Nutzung vorliegt oder unter der Bedingung zur Nennung des ursprünglichen Inhalts bzw. Urhebers. Aber wie ist der von Copilot generierte Code zu betrachten?
Ein Entwickler, der sich Eevee nennt, fasst seine Wut über das Tool in einem Tweet zusammen: "GitHub Copilot ist [...] auf Bergen von GPL-Code entstanden, daher bin ich mir nicht sicher, inwiefern dies nicht eine Form der missbräuchlichen Verwendung von Open-Source-Code in kommerziellen Werken ist." Diese Art des Vorwurfs der Urheberrechtsverletzung ist in Bezug auf KI-Technologien nicht neu. Der zuvor genannte Alex Champandard etwa sprach das Thema bereits nach der Präsentation von DALL.E an, der künstlichen Intelligenz, die aus jedem Text ein Bild erzeugt. Als Reaktion auf die Kritik verweist GitHub auf die FAQs von Copilot, in denen es heisst, dass es sich um einen Code-Synthesizer und nicht um eine Suchmaschine handelt: "Die überwiegende Mehrheit des von Copilot vorgeschlagenen Codes ist einmalig generiert und wurde noch nie zuvor gesehen. Allerdings gibt GitHub zu, dass in sehr seltenen Fällen "der Vorschlag Schnipsel enthalten kann, die direkt aus dem Trainings-[Daten-]Satz stammen".
"Bugs werden schneller übertragen, als man denken kann"
Zusätzlich zu den urheberrechtlichen Bedenken wird die Qualität des von GitHub Copilot vorgeschlagenen Codes infragegestellt. In seinem Blog schätzt der Entwickler Maxim Khailo, dass die Leistung des Tools insgesamt schlechter sein werde, als die eines menschlichen Programmierers. "Es ist schneller als das Kopieren und Einfügen von Codeschnipseln, denn Copilot vervollständigt automatisch den Code, der wahrscheinlich kompiliert wird und weniger menschliche Korrekturen erfordert. Alle Programmierer verstehen, warum das Kopieren und Einfügen von Code schlecht ist. Es führt wahrscheinlich zu Fehlern. Mit Copilot werden Bugs schneller weitergegeben als man denken kann", schreibt der Entwickler.
Bekannt für seine KI-bezogenen Beiträge auf der Plattform Medium, glaubt der Blogger und Entwickler mit dem Spitznamen "Chris The Data Guy" auch, dass Copilot niemals die Kreativität von Computerprogrammierern ersetzen werde. Auf der anderen Seite merkt er an, dass solche Low-Code/No-Code-Tools Anfänger davon abhalten könnten, ihre Fähigkeiten zu verfeinern, indem sie Anwendungen von begrenzter Komplexität erstellen. Ausserdem könnten die besten Entwickler, wenn sie ihre Produktivität mit diesen Tools steigern können, am Ende den Grossteil der Aufträge bekommen und nur Krümel für ihre weniger talentierten Kollegen übrig lassen. Schliesslich befürchtet der Experte, dass diese Lösungen zur Codierungsunterstützung Software in eine Blackbox verwandeln, denn "wie können wir den Code verstehen, den die KI schreibt, wenn wir keinen Code schreiben?
Kurzum, es steht viel auf dem Spiel, wie die KI- und Software-Engineering-Expertin Dagmar Monett auf Linkedin zusammenfasst: "Ich kann Ihnen mit absoluter Sicherheit sagen, dass wir vor den nächsten KI-Kopfschmerzen stehen. [Diese Werkzeuge] werden wahrscheinlich Anwälte reich machen, wenn Besitzer von lizenziertem Code auf GitHub anfangen, die Erbauer des Copilot-Korpus zu verklagen."