OCR, Dokumenten-Analyse

Dokumente mit OCR erkennen, intelligent analysieren

Eingangspost muss gelesen und die richtigen Schlüsse zur Bearbeitung daraus gezogen werden. In selbst manchen größeren  Unternehmen ist dies heute noch Menschenwerk. Programme für OCR (Optical Character Anlayse = Schrifterkennung) und Dokumentenanalyse setzten sich aber zusehends dorch. Vor allem für Routineaufgaben.

Im Office 4.0 werden Papier-Dokumente zunächst durch Scannen digitalisiert und dabei in PDFs umgewandelt. Damit sich die Inhalte der Dokumente anschließend maschinell verarbeiten lassen, müssen die enthaltenen Schriftzeichen und Zahlen als solche erkannt und aufbereitet, anschließend die Inhalte analysiert werden. Den ersten Teil dieser Aufgabe leisten OCR-Programme, den zweiten Systeme zur Dokumenten-Analyse. Diese setzen die von der OCR gelieferten Buchstaben- und/oder Ziffern zu verwertbaren Informationen (Zahlen, Begriffe) zusammen und bringen sie auf Wunsch zur visuellen Kontrolle auf den Bildschirm.  Anschließend gehen die Dokumente (PDF und digitale Infomationen) per Workflow auf den Weg durchs Unternehmen, Dieses Verfahren wird – mit Ausnahme des Scannens – auch auf elektronisch eingehende, aber nicht auslesbare Dateien, angewandt. Auslesbare PDF-Dateien werden direkt in die Analyse geschleust.

Haupt-Einsatzfeld: Rechnungseingangs-Management

Beim klassischen – papierbasierten – Rechnungseingangs-Prozess extrahieren die Systeme nach dem Scannen Informationen wie z.B. Absender, Beleg-Datum und Nummer, Einzel- und Gesamtbeträge, Mehrwertsteuer-Sätze und -Beträge nach vorgegebenen Regeln aus den Dokumenten. Meist unabhängig von deren Form. Die extrahierten Werte werden in einer Freigabe-Maske angezeigt. Findet das System Werte nicht, bleiben die Felder leer, ist das Ergebnis nicht eindeutig, werden die Felder farbig markiert. In beiden Fällen können Mitarbeiter die Fehler beheben.

Eingangsrechnungen, später auch weitere Dokumente im ZUGFeRD-Format (auch X-Rechnung) lassen sich voll-automatisiert verarbeiten. Siehe ZUGFeRD-Seite.

Bei eingehender Korrespondenz richtet sich der Fokus der OCR-Lösungen meist darauf, Absender samt Adresse, aus dem Betreff Aktenzeichen oder das Anliegen (Bestellung, Reklamation, Informationswunsch usw.) zu filtern, damit die Dokumente automatisch an die richtige Stelle zur Bearbeitung geleitet werden können. Manche Programme sind in der Lage, anhand des Texts selbst die richtige Entscheidung für die Weiterverarbeitung zu treffen.

Zum Absichern der Analyse-Ergebnisse greifen die Programme auf interne Datenbanken z.B. mit Kundendaten, Aufträgen oder Vorgängen zu. Moderne Programme „lernen“ aus Fehlern. Sie können sich Fundstellen bestimmter Werte aus den Dokumenten bestimmter Aussteller merken, sobald man sie ihnen einmal „gezeigt“ hat.