Je mehr Sprachaufnahmen, umso besser

Update: ZHAW und FHNW rufen zum Kampf der Kantone

Uhr
von Yannick Chavanne und Übersetzung: rja, ebe, msc

Mit einem Wettbewerb wollen Forscher der ZHAW und der FHNW möglichst viele Sprachaufnahmen Schweizerdeutscher Dialekte sammeln. Mit den gesammelten Daten sollen Chatbots, Sprachassistenten und Übersetzungstools trainiert werden.

Die Forschenden von ZHAW und FHNW wollen mindestens 2000 Stunden an Sprachufnahmen sammeln. (Source: Monkey Business / Fotolia.com)
Die Forschenden von ZHAW und FHNW wollen mindestens 2000 Stunden an Sprachufnahmen sammeln. (Source: Monkey Business / Fotolia.com)

Update vom 21. Juli 2021: 54'000 Sprachaufnahmen haben die Forscher des Projekts "Schweizer Dialektsammlung" bereits gespeichert. Das klingt nach viel – doch von den 2 Millionen Aufnahmen, die sich die Forscher als Ziel gesetzt haben, sind sie noch immer weit entfernt. Um die Sammlung anzuspornen, lancieren sie nun den "Kampf der Kantone".

In diesem Wettbewerb treten die Schweizer Kantone bzw. Ihre Dialekte gegeneinander an, heisst es in einer Mitteilung. "Für die Bewertung wird berücksichtigt, wie viele Personen im jeweiligen Kanton Schweizerdeutsch sprechen. Zudem fliesst auch die Qualität der Aufnahmen mit ein", erklärt Mark Cieliebakvom ZHAW Centre for Artificial Intelligence (CAI). Den aktuellen Stand kann man online einsehen. Stand heute führt das Wallis, gefolgt von Zürich und Appenzell Ausserrhoden – Bärn isch uf em Achte Platz, auso eländ wit hinger. Wenig überraschend stehen Neuenburg, Tessin und Waadt am Schluss der Tabelle.

Der Wettbewerb läuft bis zum 27. August. Danach erhält der Siegerkanton einen Preis, schreiben die Forscher. Ebenfalls belohnt werden die fleissigsten Nutzerinnen und Nutzer der Sprachsammlung. Gemäss Mitteilung warten ein Helikopter-Rundflug, ein Smartphone, ein Bluetooth-Lautsprecher, Essenskörbe und Kartenspiele auf die eifrigsten Dialektsammler.

Originalmeldung vom 27. 05. 2021: Forscher wollen KIs Schweizer Dialekte beibringen

"Hey Siri, was macht z'Wätter z'Tunis?" - "OK, René, ich suche im Internet nach: Was macht zwar Terz Tunis…".

Noch haben Sprachassistenten, und alle künstlichen Intelligenzen, ihre liebe Mühe mit Schweizer Dialekten. Nun wollen Forschende der Zürcher Hochschule für angewandte Wissenschaften (ZHAW) und der Fachhochschule Nordwestschweiz (FHNW) dies ändern.

"Wir wollen Schweizer Dialekte sammeln und digitalisieren", erklärt Mark Cieliebak vom ZHAW-Zentrum für Künstliche Intelligenz (CAI) das Projekt. Das Forscherteam sucht daher nach Freiwilligen, die mindestens 2000 Stunden an Sprachaufnahmen aufzeichnen. "Wir werden die gesammelten Daten nutzen, um einen KI-basierten Algorithmus zu trainieren, der Schweizerdeutsch versteht und automatisch in hochdeutsche Texte umwandelt", erklärt Manfred Vogel von der FHNW.

Aufnahmen via Web-App

Man wolle die Lücke schliessen, die bei Chatbots oder Sprachassistenten wie Siri oder Alexa bestehe. Für die Tech-giganten sei der Schweizer Markt zu klein, um eine eigene Lösung zu entwickeln, erklären die Projektleiter. Folglich fehlten diesen populären Systemen die Dateien, um hiesige Dialekte verstehen zu können.

Wer sich am Projekt beteiligen will, kann eigene Aufnahmen über eine von den Forschenden entwickelte Web-App aufzeichnen. Dabei gibt die App jeweils hochdeutsche Sätze vor, und der Nutzer muss diese in Schweizer Dialekt einsprechen.

Wer selber nicht sprechen möchte, kann auch von anderen Nutzern hochgeladene Sätze überprüfen. Die bereits gesammelten Audiodateien sind nach Kantonen aufgelistet, so dass die Teilnehmer sehen können, in welchen Kantonen und Dialekten noch Daten fehlen. Die gesammelten Daten werden genutzt, um Sprachschnittstellen für verschiedene Anwendungen zu entwickeln, wie Sprachassistenten, Untertitel oder die automatische Auswertung von Kundendienstanrufen.

Das Unternehmen Spitch bietet jetzt schon Spracherkennungsdienste an, die Schweizerdeutsch verstehen sollen. Unlängst stellte Spitch eine Lösung vor, mit der oft gestellte Fragen automatisch via Telefon beantwortet werden.

Tags
Webcode
DPF8_218173