NLP

Mehr Bürgernähe durch Natural-Language-Processingg

Uhr
von Silvia Quarteroni, Spezialistin in natürlicher Sprachverarbeitung, Elca Informatik

Bürgerinnen und Bürger nutzen privat digitale Kanäle. Als Steuerzahler erwarten sie diese Services auch von der öffentlichen Verwaltung. Behörden ihrerseits müssen hohe Compliance- und ­Sicherheitsstandards erfüllen. Wie lassen sich diese ungleichen Anforderungen zusammenführen?

Silvia Quarteroni, Spezialistin in natürlicher Sprachverarbeitung, Elca Informatik
Silvia Quarteroni, Spezialistin in natürlicher Sprachverarbeitung, Elca Informatik

Heutzutage kauft man selbstverständlich rund um die Uhr online ein oder stellt nachts Supportanfragen. Vielen Firmenwebsites nehmen mit echten oder virtuellen Agenten Anfragen entgegen. Was aber, wenn man in einem Notfall nachts oder an einem entlegenen Ort eine Behörde kontaktieren muss? Wenn man eine Erklärung braucht oder eine Rückfrage zu einem Vorgang hat? Derzeit bieten öffentliche Verwaltungen ihre Dienstleistungen noch nicht so umfassend an.

Es gibt immer mehr Daten (textbasiert/gesprochen), von denen Maschinen lernen können. Wenn diese Daten analysiert und für die Behörden nutzbar gemacht würden, kann ein völlig neues Dienstleistungsniveau entstehen. Aber wie? Die Basistechnologie hierfür ist Natural-Language-Processing (NLP), die automatische Analyse menschlicher Sprache. NLP verbindet künstliche Intelligenz, Linguistik und Statistik, damit Maschinen von Texten oder Daten lernen und Inhalte interpretieren können. Es gibt schon heute alltägliche NLP-basierte Dienstleistungen: Sprach­er­kennung am Telefon, automatische Übersetzungen oder Verschieben von Spam-Mails durch den Mail-Client in den Junk-Ordner.

Chance und Verantwortung

Für eine Maschine ist es komplex, Sprache zu interpretieren (Erkennen von Doppeldeutigkeiten, Verstehen des Kontextes). Der Weg bis zur heutigen Reife war lang. Bereits in den 1970er-Jahren konnten Roboterarme auf einfache mündliche Anweisungen reagieren und Gegenstände bewegen. Heute chatten wir mit Robotern. «Chatbots» ermöglichen völlig neue Dienstleistungen, etwa überall dort, wo es um den Kunden geht. Die öffentliche Verwaltung darf hier keine Ausnahme bleiben. Heute analysieren Open-Source-Intelligence-Anwendungen (OSINT) Nachrichten und Blogs in Echtzeit, um bei heiklen Themen zu warnen. Unternehmen erstellen Profile von Social-Media-Nutzern, basierend auf ihrem Schreibstil, um so Geschlecht, Alter, Bildungsgrad und Wählerverhalten zu bestimmen – wie in den letzten drei US Präsidentschaftskampagnen gesehen.

Für die öffentliche Verwaltung bedeutet dies Chance und Verantwortung. Bürger äussern sich im Netz zu allen Themen. Die Fülle dieser Daten kann nicht länger ignoriert werden. Das datengestützte Kundenbeziehungsmanagement im Einzelhandel, im öffentlichen Verkehr und im Finanzsektor schafft Erwartungen gegenüber dem öffentlichen Sektor. Andererseits will niemand, dass die Behörden Daten sammeln, um sie gegen sie zu verwenden. Die Aufbewahrung der genutzten Personendaten wird denn auch streng geregelt, vor allem in den Bereichen öffentliche Verwaltung und Gesetzesvollzug.

Wie funktioniert «Lernen aus Daten»?

NLP stützt sich auf eine Wissenschaft, die als maschinelles Lernen bezeichnet wird. Um etwa zu bestimmen, ob es sich bei einer E-Mail um eine Anfrage oder eine Beschwerde handelt, lernt ein Algorithmus für überwachtes Lernen die statistische Verteilung von Wörtern, die in einem repräsentativen Datensatz für Anfragen beziehungsweise Beschwerden vorkommen. Diese Trainingsphase resultiert in einem Modell, das dem Nutzer sagt, ob neue Fälle Beschwerden sind oder nicht.

Wie einfach lässt sich eine NLP-Anwendung aufsetzen? Das ist tatsächlich nicht trivial, Fachwissen und sorgfältige Überlegungen sind erforderlich. Was ist das Ziel? Inhalte kategorisieren (z. B. E-Mails nach Thema) oder Informationen extrahieren (z. B. Menschen, Orte, Organisationen)? Sind die Daten klassifiziert (nach Thema) oder nicht? Die Antworten bestimmen, welche Algorithmen anzuwenden sind (z. B. logistische Regression oder hierarchisches Clustering). Eine weitere Schwierigkeit ist die Konfiguration des Algorithmus: Worauf wird er schauen, um von den Daten zu lernen? Ist die Häufigkeit einzelner Wörter informativ genug, sollte er Wortsequenzen überprüfen oder eine tiefer gehende linguistische Analyse durchführen, um «die Daten zum Sprechen» zu bringen?

All dies muss überlegt werden, unabhängig davon, ob Systeme mit Open-Source-Bibliotheken erstellt oder gebrauchsfertige APIs wie Watson oder Cortana integriert werden: Nur ein systematischer Ansatz bringt signifikante und verwertbare Ergebnisse. Wenn wir jedoch zusätzlich qualifizierte Beratung einbinden, entsteht eine völlig neue Generation bürgernaher Anwendungen und eine moderne öffentliche Verwaltung, die mit den Bürgerinnen und Bürgern auf Augenhöhe ist.

Webcode
ITFG1612