Wenn Hacker auf Archivare treffen
Am Freitag ist der erste Archiv Hackday in Zürich zu Ende gegangen. Ein bunt gemischtes Teilnehmerfeld entwickelte neue Anwendungen aus alten Daten. Im Rahmenprogramm zeigte sich, dass Archive weniger verstaubt sind, als oft angenommen.
Bibliotheken sind eigentliche Orte der Ruhe und des stillen Arbeites. Am Freitag dem 9. Juni wandelte sich die Bibliothek des Staatsarchivs Zürich aber zu einem Zentrum für das kreative Hacken und Programmieren. An dem Tag fand dort der Hackathon "#ZACK – Zürcher Archiv Hackday" statt. Laut den Veranstaltern entwickelten rund 40 Teilnehmer Ideen für Anwendungen, um neue Einblicke aus offenen Archivdaten gewinnen zu können.
Erster Hackathon dieser Art in der Schweiz
Der Hackathon fand im Rahmen des alle fünf Jahre stattfindenden Schweizerischen Archivtages statt. Organisiert wurde der Hackday von gleich sechs Archiven: dem Schweizerischen Literaturarchiv, dem Schweizerischem Sozialarchiv, dem Staatsarchiv Zürich und den Stadtarchiven Uster, Winterthur und Zürich. Mit an Bord waren auch noch die Initiative Openglam, welche sich für den freien digitalen Zugang zu Kulturgütern einsetzt, und Wikimedia Schweiz. Laut Mitorganisator Tobias Hodel wollten die Archive mit diesem Format etwas Neues ausprobieren und aufzeigen, welche Möglichkeiten in offenen und vernetzten Archivdaten stecken.
Hodels Ausführungen zufolge kamen 30 Prozent der Teilnehmer aus der Hackerszene, vor allem von Openglam. 40 Prozent ordnete Hodel dem Bereich Archive, Bibliotheken oder Universität zu. Der Rest waren interessierte Studenten. Er zeigte sich mit der Resonanz sehr zufrieden. Mit dem Hackathon sollten diese doch sehr unterschiedlichen Gruppen zusammengebracht und der Austausch angeregt werden. Schon unter diesem Gesichtspunkt war der Event für Hodel ein voller Erfolg.
Eine weitere Schwierigkeit war es, die vielen beteiligten Archive zu vereinen. Bedingt durch den Föderalismus gebe es sonst nur wenig Austausch in dieser Form. Mitorganisatorin Karin Beck, Stadtarchiv Zürich, zeigte sich daher erfreut, dass die Zusammenarbeit für die Hackdays gut geklappt habe.
Anwendungen aus offene Daten erarbeiten
Die Datensätze für den Hackathon stellte Open Data Zürich bereit. Darunter etwa die Bauhistorische Fotosammlung Julius Gujer 1893-1909, das Bildarchiv des Schweizerischen Arbeiterhilfswerks, die Ehedatenbank des Kantons Zürich oder die Handschriften von Rainer Maria Rilke.
Auf dieser Basis entwickelten die Hacker etwa folgende Anwendungen:
eine Visualisierung der Ehedatenbank des Staatsarchivs Zürich
eine Automatisierte Bilderkennung von Bestände aus dem Schweizerischen Sozialarchiv und dem Stadtarchiv Winterthur
eine Anreicherung und Visualisierung der Metadaten von Rainer Maria Rilke
Mehrwert durch Linked Open Data schaffen
Laut Hodel stehen Schweizer Archive beim Thema offene Daten noch ganz am Anfang. Nennenswerte Initiativen gebe es nur beim Bundesarchiv und einigen wenigen Staatsarchiven. Vor allem fehle es den Archiven noch an Know-how. Auch seien die vorherrschenden Archivinformationssysteme nicht für Open Data ausgelegt. Diese wurden oft in den 90er Jahren entwickelt und würden offene Daten nicht vorsehen. Auch in der Archivausbildung seien offene Daten kaum ein Thema, wie Hodel sagte.
Parallel zum Hackathon gab es daher noch ein Rahmenprogramm mit Vorträgen zur Digitalisierung in Schweizer Archiven. Die Vorträge sollten interessierte Archivmitarbeiter anziehen und dadurch den Austausch zwischen Entwicklern, Archivaren und Forschern intensivieren, wie Hodel sagte.
Vor dem Event gab es bei den Archiven viel Skepsis gegenüber Linked Open Data, da der direkte Nutzen nur schwer ersichtlich ist. Die Vorträge und der Hackathon sollten daher aufzeigen, dass es in der Bevölkerung ein grosses Interesse an solchen Daten gibt. Denn laut Hodel ist es auch eine Aufgabe der Archive, einen breiten und uneingeschränkten Zugang zu den Beständen zu schaffen. Linked Open Data ist für Hodel ein Weg dazu.
Handschriften mit neuronalen Netzwerken erkennen
Bei seinem Konferenzbeitrag stellte Hodel zudem das Projekt "READ" vor. Die Abkürzung steht für "Recognition und Enrichment of Archival Documents". READ ist ein von der europäischen Kommission gefördertes Projekt für die Erkennung von historischen Handschriften. Ziel ist es, dass Handschriften ähnlich wie gedruckte Texte eingelesen werden können. Hochschulen aus ganz Europa tragen zum Projekt bei. Die Schweiz ist mit der Uni Zürich, der Uni Bern oder der EPF Lausanne vertreten.
Für die Erkennung von Handschriften setzen die Forscher auf sogenannte neuronale Netzwerke. Anhand von Beispieltexten wird die Software auf Handschriften trainiert. Dies sei jedoch nicht so einfach wie bei gedruckten Texten, wie den Ausführungen von Hodel zu entnehmen war.
Der Computer könne etwa nur schwer zwischen Handschrift und der Struktur des Blattes unterscheiden. Auch mehrspaltige Texte und Randnotizen erschweren die Erkennung. Aufgrund dieser Schwierigkeiten arbeiten Forscher aus unterschiedlichen Disziplinen zusammen. Neben Geisteswissenschaftlern und Informatikern braucht es auch die Unterstützung von Computerlinguisten.
Da Handschriften sehr unterschiedlich sind, werden die Programme nicht an einzelnen Buchstaben trainiert. Es werden gleich ganze Wörter oder Zeilen als Basis für die Erkennung genommen, sagte Hodel. Auch gibt das Programm Wahrscheinlichkeiten an
Fehlerraten noch recht hoch
Noch steckt die Technologie aber in den Anfängen, wie Hodel anhand der "Character Error Rate" (CER) bei der Erkennung veranschaulichte. Wenn der Algorithmus etwa an 150 Seiten einer Handschrift trainiert wird, dann liegt die CER bei 10 Prozent. Jeder zehnte Buchstabe ist also falsch. Solche Texte seien nur schwer lesbar. Für eine CER von 4,4 Prozent müsse das Programm schon mit 450 Seiten eines Schreibers trainieren. Bei über 1000 Seiten könne die CER auf rund 3 Prozent reduziert werden, was in etwa der OCR-Erkennung entspreche.
Die Erkennung und das Training sind laut Hodel sehr rechenintensiv. Zudem brauche es viele Materialien, um das Training auszuführen. Er rief daher dazu auf, Handschriften für das Training bereitzustellen. Die Kontributoren erhielten dann eingelesene Texte als Belohnung. Dies könne jedoch aufgrund der begrenzten Rechenleistung einige Zeit in Anspruch nehme. Es lohne sich laut Hodel aber.