OCR, Dokumenten-Analyse

Das Bearbeiten von Eingangspost – sei sie in Papierform oder digital per E-Mail eingetroffen – bedingt, dass ihr Inhalt gelesen wird und die richtigen Schlüsse zur Bearbeitung gezogen werden. In immer weniger (größeren) Unternehmen ist dies heute noch Menschenwerk. Immer öfter übernehmen Programme für OCR (Optical Character Anlayse = Schrifterkennung) und Dokumentenanalyse zentrale Teile solcher Routineaufgaben. Unabhängig vom Einsatzgebiet lösen sie verschiedene Aufgaben.

Papier-Dokumente werden zunächst durch Scannen digitalisiert und dabei meist in PDFs, selten noch in TIF-Dateien, umgewandelt. Damit sich die Inhalte der Dokumente anschließend maschinell verarbeiten lassen, müssen zunächst Schriftzeichen und Zahlen als solche erkannt und aufbereitet, anschließend die Inhalte analysiert werden. Den ersten Teil erledigen OCR-Programme, den zweiten Programme zur Dokumenten-Analyse. deren Aufgabe ist es, die von der OCR gelieferten Buchstaben- und/oder Zahlen zu verwertbaren Informationen (Zahlen, Begriffe) aufzubereiten und diese auf Wunsch zur visuellen Kontrolle anzubieten.  Anschließend gehen die Dokumente virtuell auf den Weg durchs Unternehmen, meist mit Hilfe von Workflow-Systemen.

Dieses Verfahren wird – mit Ausnahme des Scannens – auch auf elektronisch eingehende, aber nicht durchsuchbare Dokumente, z.B. TIF-Dateien, angewandt. Durchsuchbare PDF-Dateien werden direkt in die Analyse geschleust.

Vorrangiges Einsatzfeld: Rechnungseingangs-Management

Beim klassischen – papierbasierten – Rechnungseingangs-Prozess extrahieren die Systeme Werte wie z.B. Absender, Beleg-Datum und Nummer, Einzel- und Gesamtbeträge, Mehrwertsteuer-Sätze und -Beträge nach vorgegebenen Regeln aus den Dokumenten. Meist unabhängig von deren Form. Die extrahierten Werte werden in einer Freigabe-Maske angezeigt. Findet das System Werte nicht, bleiben die Felder leer, ist das Ergebnis nicht eindeutig, werden die Felder farbig markiert. In beiden Fällen können Mitarbeiter die Fehler einfach beheben.

Eingangsrechnungen, später auch weitere Dokumente im ZUGFeRD-Format (künftig auch X-Rechnung) lassen sich voll-automatisiert verarbeiten. Siehe ZUGFeRD-Seite.

Bei eingehender Korrespondenz richtet sich der Fokus der OCR-Lösungen meist darauf, Absender samt Adresse, aus dem Betreff Aktenzeichen oder das Anliegen (Bestellung, Reklamation, Informationswunsch usw.) zu filtern, damit die Dokumente automatisch an die richtige Stelle zur Bearbeitung geleitet werden können. Manche Programme sind in der Lage, anhand des Texts selbst die richtige Entscheidung für die Weiterverarbeitung zu treffen.

Zum Absichern der Analyse-Ergebnisse greifen die Programme auf Datenbanken z.B. mit Kundendaten, Aufträgen oder Vorgängen zu. Moderne Programme „lernen“ aus Fehlern. Sie können sich Fundstellen bestimmter Werte aus den Dokumenten bestimmter Aussteller merken, sobald man sie ihnen einmal „gezeigt“ hat.