"Herkömmliche Dokumentenerkennung erkennt nur, was in einem Dokument steht"
In der digitalisierten Geschäftswelt steht die automatisierte Verarbeitung von Daten und Dokumenten zunehmend im Fokus. Wie künstliche Intelligenz die Dokumentenverarbeitung noch effizienter macht und welche Rolle Optical Character Recognition (OCR) dabei spielt, erklärt Alexander Vegh, Chief Technology Officer bei DeepCloud.
Sie haben kürzlich als Bestandteil von DeepBox die digitale Signaturlösung DeepSign lanciert und es gibt mit DeepV, DeepID und DeepO weitere Produkte aus der «Box». Wie sind diese im Gesamtkontext (auch mit den Angeboten von Abacus) zu sehen?
Alexander Vegh: DeepCloud wurde im Januar 2020 als Spin-off von Abacus Research gegründet und bietet innovative digitale Dienstleistungen an, die sich in verschiedene Technologieplattformen integrieren lassen. Unser Hauptprodukt, DeepBox, ermöglicht den sicheren Austausch von Dokumenten. Zusätzlich bieten wir Dienste wie DeepSign für elektronische Unterschriften und DeepID zur digitalen Identifikation von Nutzerinnen und Nutzern an. DeepV dient zur Datenvisualisierung, während DeepO mittels künstlicher Intelligenz Dokumente versteht und Informationen automatisch digitalisiert und verarbeitet, wodurch die manuelle Dateneingabe überflüssig wird.
Seit Januar haben Sie mit DeepBox 1 Million Dokumente durch Ihre Datenerfassungs-KI DeepO erfasst und verarbeitet. Warum ist dieser Meilenstein wichtig für Sie?
Mittlerweile sind es bereits über 1,3 Millionen Dokumente. Im September verzeichneten wir ein Wachstum von 10 Prozent. Der Meilenstein zeigt uns, dass die Nachfrage nach Dokumentenerkennungs- und Dokumentenanalyse-Tools gross ist. Diese Erkenntnis bestätigt nicht nur die Nachfrage nach unseren DeepCloud-Produkten, sondern auch die Nachfrage bei Dritten, die unsere APIs verwenden.
Wie unterscheidet sich DeepO von herkömmlicher OCR-Technologie (Optical Character Recognition) für die Dokumentenerfassung in ERP-Systemen?
Herkömmliche Dokumentenerkennung (OCR) erkennt nur, was in einem Dokument steht. DeepO geht hier weiter. Es reichert diese Daten mit zusätzlichen Informationen zur Verarbeitung an und dies immer abhängig vom Kontext und sonstigem Wissen, das dem System zur Verfügung steht. Nehmen wir das Beispiel Mehrwertsteuer: Eine Rechnung enthält ein Rechnungsdatum und einen Totalbetrag mit dem Vermerk «inkl. MWST». Den gültigen Mehrwertsteuersatz und die daraus resultierenden Beträge kann DeepO berechnen und dem Buchhaltungssystem zur Verfügung stellen.
Wie gelingt es DeepO, die Semantik von Dokumenten zu verstehen, und welche Rolle spielt dies bei der Integration von Informationen aus verschiedenen Quellen?
Eine DeepO-Analyse umfasst diverse Verarbeitungsschritte. DeepO erkennt, um welches Dateiformat es sich handelt und ob zusätzliche Informationen in den Metadaten enthalten sind. Je nach Dokument kommt anschliessend die optische Zeichenerkennung zum Einsatz und es wird der Dokumenttyp ermittelt – etwa ob es sich um eine Rechnung oder eine Mahnung handelt. Gleichzeitig ermittelt DeepO Datenpunkte und gleicht diese gegeneinander ab. So stellt DeepO fest, ob QR-Code und aufgedruckte Kontonummer übereinstimmen. Sofern zur Verfügung gestellt, verwendet das System auch Daten aus externen Quellen wie ERP-Systemen und kann dadurch entscheiden, ob die Rechnung der Debitoren- oder der Kreditorenbuchhaltung zugeordnet wird.
Welche Drittquellen können in DeepO integriert werden?
Wir unterscheiden zwischen Daten- und Dokumentenquellen. Handelt es sich um eine reine Dokumenteneinlieferung, unterstützt DeepO dabei das DeepBox-Ökosystem. Das ganze funktioniert mittels Scan-Apps, DeepBox-Webapplikation, E-Mail, Browser-Upload oder über das DeepO-API. Über das API können Unternehmen Daten aus beliebigen Drittsystemen hochladen – von einfachen Nachschlageverzeichnissen bis zu komplexen Daten wie einer Liste von Autonummern mit den entsprechenden Kontierungsregeln auf der Zeitachse. Daneben verwendet DeepO diverse Datenquellen wie Firmen- und Bankverzeichnisse – nicht nur aus der Schweiz, sondern auch internationale, öffentlich verfügbare Informationen.
Das klingt nach einer deutlichen Effizienzsteigerung durch die Eliminierung von manueller Dateneingabe. Können Sie das Einsparpotenzial für langweilige Verwaltungsarbeiten beziffern?
Das ist eine sehr gute Frage. Die Antwort ist natürlich immer situationsbedingt. In einem Kundenprojekt haben wir die Vorgabe, dass 80 Prozent der eingehenden Rechnungen vollautomatisch verarbeitet werden sollen – dies bei einer sechsstelligen Anzahl von Dokumenten pro Jahr. Bei komplexen Rechnungen, wie einer 30-seitigen Rechnung eines Strassenverkehrsamts, bei der jede Position auf das entsprechende Fahrzeug gebucht wird, lassen sich schätzungsweise pro Rechnung rund 20 Minuten einsparen. Viele Informationen werden zwar bereits im QR-Code mitgeliefert, sind aber häufig nicht ausreichend. Soll auf ein spezifisches Projekt gebucht werden, muss die entsprechende Information auf dem Dokument gesucht werden, sofern sie vorhanden ist. Falls nicht, kommen die semantischen Fähigkeiten von DeepO zum Zug.
Wie flexibel ist DeepO in Bezug auf die Integration in unterschiedliche Anwendungen?
DeepO ist sehr flexibel. Wir haben bereits diverse ERP-Systeme und mobile Applikationen angeschlossen. Die Lösung verarbeitet auch vorgelagerte Belege für eine Vielzahl von Abacus-Installationen, für Swiss 21 und andere Systeme. Das Spesenerkennungstool AbaClik nutzt ebenfalls DeepO. Mit jeder neuen Systemintegration sammeln wir wertvolle Erkenntnisse und lernen kontinuierlich dazu.
Wie sieht es mit der Sicherheit von DeepO und den Kundendaten aus?
Sicherheit steht für uns an erster Stelle. DeepCloud ist ISO-27001-zertifiziert und der DeepID-Bereich ist ausserdem durch KPMG zertifiziert. Unsere eigene ausfallsichere Infrastruktur betreiben wir in verschiedenen Rechenzentren. Ausserdem verwenden wir aus Datenschutzgründen nur lokale Technologien und keine externen Dienste, die Zugriff auf Kundendaten erlangen könnten.
Wie sehen Sie das zukünftige Wachstum von DeepO, und welche neuen Funktionen oder Verbesserungen können wir in der Zukunft erwarten?
Wir verfeinern die Dokumentenanalyse kontinuierlich und lassen Kundenfeedback zu Erkennungsfehlern direkt in das System einfliessen. Ebenso bauen wir unser Angebot mit neuen Dokumenttypen und Schnittstellen, basierend auf Kundenwünschen aus. Unsere Wachstumszahlen zeigen, dass wir hier auf dem richtigen Weg sind. Natürlich verfolgen wir auch die Entwicklung im Bereich Large Language Models. Funktionen wie Dokumentinhalte zusammenzufassen oder eine fremdsprachige Rechnung zu übersetzen, sollen in Zukunft auch in DeepBox zur Verfügung stehen.
Zur Person
Alexander Vegh ist Partner und Director of Research & Development bei Abacus Research, bei der er nun seit fast 30 Jahren tätig ist. Seit November 2021 ist er zudem Chief Technology Officer bei DeepCloud, einem Spin-off von Abacus, das modernste KI-basierte digitale Dienste bereitstellt.