So entscheiden Datenqualität und Datenquantität über den Erfolg von KI-Projekten
Künstliche Intelligenz (KI) kommt laut einer Interxion-Studie bei 96 Prozent der Schweizer Unternehmen zum Einsatz. Allerdings gaben nur 22 Prozent der Schweizer IT-Entscheider an, dass sie KI bereits für einen ersten Anwendungsfall einsetzen. Dabei ist KI etwa im Datenmanagement sehr hilfreich – sofern Qualität und Quantität der Trainingsdaten stimmen.
Künstliche Intelligenz (KI) kann in Unternehmen in den unterschiedlichsten Bereichen, wie etwa im Kundenservice, in der Marketingautomation oder beim Dokumentenmanagement, für Entlastung sorgen. Auch für das Management und die Optimierung der eigenen Daten kann KI eingesetzt werden. Hiervon profitieren insbesondere Unternehmen, die über umfangreiche Datenbestände verfügen. So ist es etwa für E-Commerce-Unternehmen und stationäre Einzelhändler, Banken und Versicherungen, Energieversorger und Messegesellschaften wichtig, Geschäftspartnerdaten automatisiert verwalten und richtig kategorisieren zu können. Konkret geht es dabei zum Beispiel um die Einhaltung von Vorgaben der DSGVO oder unternehmensinternen Compliance-Richtlinien. Auch Marketing-Automation-Projekte bringen bessere Ergebnisse, wenn ihre Datenbasis stimmt. KI-Lösungen könnten in solchen Umfeldern bereits in der Vorbereitung grosse Effizienzgewinne bringen. Grundlage für ein sauberes Anlernen und eine zuverlässige Funktion der KI ist eine verlässliche Basis an Trainingsdaten. Sind Datensätze hier fehlerhaft oder unvollständig, besteht das Risiko, dass die KI falsche Muster lernt.
Doch welche Voraussetzungen sind nötig, damit eine KI helfen kann, etwa in grossen Mengen von Geschäftspartnerdaten – von Kunden, Lieferanten, Dienstleistern und anderen – selbsttätig personenbezogene Daten von Unternehmensdaten zu unterscheiden? Dieser Frage widmete sich ein gemeinsames Forschungsprojekt der Experten für Geschäftspartnerdaten bei Uniserv und dem spanischen KI-Start-up Recogn.ai, dessen Erkenntnisse die Grundlage dieses Beitrags sind. Wenn Unternehmen KI-basierte Datenprojekte angehen, sollten sie die nachfolgenden Aspekte berücksichtigen.
Vorbereitung ist alles
Ausgangspunkt für jedes KI-Projekt ist die Auswahl des oder der passende(n) KI-Modelle. Hierfür ist die Problemstellung, die es zu lösen gilt, präzise zu definieren. KI-Modelle können entweder selbst trainiert werden, oder es können bereits bestehende Modelle genutzt werden. In jedem Fall ist zu Beginn des Projekts ein exploratives Vorgehen ratsam, in dem zunächst verschiedene KI-Modelle getestet und verglichen werden. So wurden beispielsweise im Rahmen des genannten Projekts über die Projektlaufzeit von zwölf Monaten mehr als 50 verschiedene Machine-Learning-Modelle trainiert und getestet, um anschliessend die jeweiligen Ergebnisse und Zuverlässigkeitswerte miteinander zu vergleichen. Die Schwierigkeit für die KI lag in der Projektphase vor allem darin, dass sie lernen musste, dass Unternehmensnamen teilweise ebenso aus Namen von Privatpersonen bestehen können. Dies ist oft etwa bei Einzelunternehmen – zum Beispiel bei "Malermeisterin Eva Meier" – der Fall.
Nicht jedes Modell bringt mit dem gleichen Dateninput dieselben Ergebnisse. Vielfältige Faktoren, wie die Konfiguration, die Menge und Verteilung der Trainings- und Testdaten oder wie oft ein Modell trainiert wird (sogenannte "Epochen"), nehmen Einfluss auf das Ergebnis. Entsprechend viel Zeit sollten Unternehmen daher bereits in der Projektkonzeption für diese Auswahlphase einplanen. Hier kann es hilfreich sein, mit einem erfahrenen Partner zusammenzuarbeiten und sich dessen Expertise zu erschliessen.
Geeignete Trainingsdaten nutzen
Neben der Modellauswahl entscheiden die Daten, mit denen eine KI für ihre Aufgabe trainiert wird, über Erfolg oder Misserfolg eines Projekts. Die Trainingsdaten sollten möglichst genau den später zu analysierenden Echtdaten entsprechen. Projektverantwortliche sollten sich bei der Auswahl der Test- und Trainingsdaten grundsätzlich zwei Fragen stellen:
-
Auf welche Daten(-Quellen) kann ich bereits zurückgreifen, um meine Problemstellung zu beantworten?
-
Welche Daten benötige ich womöglich noch zusätzlich?
Muss das KI-System mit echten, personenbezogenen Daten trainiert und getestet werden, müssen die Test- und Trainingsdaten unter Umständen anonymisiert oder pseudonymisiert werden. In diesem Fall sollten Projektverantwortliche aber genau prüfen, ob solche veränderten Daten zum Anlernen der KI noch ausreichend und aussagekräftig genug sind. Sollte Anonymisierung und Pseudonymisierung nicht möglich sein, können Daten auch neu gesammelt werden. In diesem Fall sollte direkt die Erlaubnis der jeweiligen Person – gemäss EU-DSGVO – zur Verwendung in einem KI-Projekt eingeholt werden. Dies gilt vor allem, wenn Unternehmen mit externen Projektpartnern zusammenarbeiten oder Daten in die Cloud verschoben werden sollen.
Umsichtiger Umgang mit synthetischen Daten
Falls keine realen Daten für das Anlernen und Testen einer KI vorhanden sind, kann es auch ausreichen, wenn ein Unternehmen generierte, also synthetische Daten, einsetzt. Ob der Einsatz zielführend ist, hängt davon ab, ob die Daten entsprechend der Fragestellung korrekt verteilt sind und einen repräsentativen Querschnitt der im Realbetrieb zu erwartenden Daten abbilden. Denn für die KI macht es tatsächlich einen Unterschied, ob sie mit realen oder generierten Daten trainiert wird. Bei der Verwendung synthetischer Daten besteht gegebenenfalls das Risiko, dass ein intelligentes System auch aus den Mustern lernt, nach denen die synthetischen Daten generiert wurden. Um auf Nummer sicher zu gehen und negative Lerneffekte bei der KI zu vermeiden, sollten Projektverantwortliche deshalb genau prüfen, auf welche Weise die synthetischen Trainings- und Testdaten erstellt wurden und die KI in der produktiven Anwendung engmaschig überwachen.
Gefahr des Overfittings – "mehr" ist nicht gleich "besser"
Um eine KI richtig anzulernen, muss ausser der Qualität auch die Menge der Trainings- und Testdaten ausreichend sein. Dabei ist die Datenmenge jedoch nicht das alleinige Kriterium. Im oben genannten Projekt erkannte die KI zum Beispiel die Datensätze mit der Bezeichnung "GmbH" nicht als Unternehmensdatensätze. Der Grund: Trotz der grossen Datenmenge waren prozentual zu wenige Datensätze mit der Firmierung als "GmbH" enthalten. Hier gilt es aufzupassen: "Mehr" bedeutet beim Training von KI-Modellen nicht zwangsläufig "besser". Gerade bei sehr grossen Datenmengen kann das Problem der Überanpassung, des sogenannten "Overfitting", auftreten. Dabei verlernt eine KI einmal Gelerntes wieder oder sie baut aus den Trainingsdaten falsches Wissen auf, das im Produktivbetrieb zu falschen Ergebnissen führt. Projektverantwortliche erkennen eine Überanpassung oft, wenn die KI zwar zuverlässig kleinere Testdatenmengen beurteilt, bei grösseren Mengen jedoch keine zuverlässigen Ergebnisse mehr liefert.
Unternehmen sollten also unbedingt darauf achten, dass die Menge an Referenzen in den Trainings- und Testdaten ausreicht, damit die KI korrekt lernt. Die Verteilung, der repräsentative Querschnitt der Daten, muss stimmen und die Realität der jeweiligen Fragestellung abbilden.
Overfitting: Zu viele Daten können sich negativ auf das Training der KI auswirken. (Source: Uniserv)
Datenqualität schafft Vertrauen
Ganz unabhängig davon, ob synthetische oder reale Daten – die Daten, die der KI zum Lernen zur Verfügung gestellt werden, müssen immer von hoher Qualität sein. Ansonsten liefert das System am Ende unzuverlässige oder nicht nachvollziehbare Ergebnisse. Hohe Datenqualität bedeutet: korrekt, vollständig und widerspruchsfrei. Setzen Unternehmen eigene Datensätze im KI-Projekt ein, sollten sie diese vorab prüfen, aufbereiten und deren Qualität sicherstellen. Dies kann mithilfe von Datenqualitätstools erleichtert werden. Diese können auch bei der Anonymisierung und Pseudonymisierung eigener Echtdaten zu Trainingszwecken helfen. Ein weiterer wichtiger Aspekt der Qualitätssicherung: Unternehmen müssen der KI beziehungsweise ihrem Ergebnis ab einem bestimmten Zeitpunkt im Projektverlauf vertrauen. Dies fällt leichter, wenn sie sich sicher sind, dass die KI die Entscheidungen auf Grundlage der richtigen Datenbasis und einer angemessenen Qualität trifft.