CO-FUNDED BY THE EUROPEAN UNION (ERDF)

Requests, informal letters, invoices, certificates and receipts … The sheer number of documents in a company binds important resources. Letters, mails and applications must be read and forwarded. Important Sender and concern information is manually transferred to databases before an agent can deal with the actual content. In order to avoid such overhead, PLANET AI is developing an assistance system for document processing based on deep artificial neural networks in the Automatic Information Extraction from Documents (AID) project. A complex task, such as information extraction, must combine textual and visual features to achieve optimal results. PLANET’s award-winning handwriting recognition and layout analysis technologies provide the foundation for these features. State-of-the-art Natural Language Processing technologies are evolving to combine features and extract information with high precision. The customer himself will be able to train and adapt systems to his needs without having to specify complicated rules or templates. The elaborate data production is to be avoided as much as possible and the assistant can learn new classes and features from a few sample data.

The project duration is from 2019 to 2021.

Anträge, formlose Schreiben, Rechnungen, Urkunden und Belege… Die schiere Anzahl an Dokumenten in einem Unternehmen bindet wichtige Ressourcen. Briefe, Mails und Anträge müssen gelesen und weitergeleitet werden. Wichtig Informationen über Absender und Anliegen werden manuell in Datenbanken übertragen, bevor sich ein Sachbearbeiter mit dem eigentlichen Inhalt beschäftigen kann. Um solchen Overhead zu vermeiden, entwickelt PLANET AI in dem Projekt Automatische Informationsextraktion aus Dokumenten (AID) einen Assistenzsystem zur Dokumentenverarbeitung auf Basis tiefer künstlicher neuronaler Netze. Eine komplexe Aufgabe wie die Informationsextraktion muss textuelle und visuelle Merkmale kombinieren, um ein optimales Ergebnis zu erzielen. PLANETs preisgekrönte Handschrifterkennung und Layout-Analysis-Technologien bilden die Grundlage für diese Merkmale. State-of-the-art Technologien aus dem Bereich Natural-Language-Processing werde weiterentwickelt, so dass sie die Merkmale kombinieren und die Informationen mit hoher Präzision extrahieren. Der Kunde wird selbst in der Lage sein, Systeme zu trainieren und auf seine Bedürfnisse anzupassen ohne dabei komplizierte Regeln oder Templates vorzugeben.  Auch die aufwändige Datenproduktion soll weitestgehend vermieden werden und der Assistent an wenigen Beispieldaten neue Klassen und Merkmale erlernen können.

Die Projektdauer ist von 2019 bis 2021.