OCR, Dokumenten-Analyse

Das Bearbeiten von Eingangspost – sei sie in Papierform oder digital per E-Mail eingetroffen – bedingt, dass ihr Inhalt gelesen wird und die richtigen Schlüsse zur Bearbeitung gezogen werden. In immer weniger (größeren) Unternehmen ist dies heute noch Menschenwerk. Programme für OCR (Optical Character Anlayse = Schrifterkennung) und Dokumentenanalyse übernehmen wesentliche Teile solcher Routineaufgaben. Unabhängig vom Einsatzgebiet lösen sie verschiedene Aufgaben.

Papier-Dokumente werden zunächst durch Scannen digitalisiert und dabei meist in PDFs, selten noch in TIF-Dateien, umgewandelt. Damit sich die Inhalte der Dokumente anschließend maschinell verarbeiten lassen, müssen zunächst Schriftzeichen und Zahlen als solche erkannt und aufbereitet, anschließen die Inhalte analysiert werden. Den ersten Teil erledigen OCR-Programme, den zweiten Programme zur Dokumenten-Analyse. deren Aufgabe ist es, die von der OCR gelieferten Buchstaben- und/oder Zahlen zu verwertbaren Inhalten aufzubereiten und diese auf Wunsch zur visuellen Kontrolle anzubieten.  Anschließend gehen die Dokumente auf den weiteren Weg durchs Unternehmen, meist mit Hilfe von Workflow-Systemen.

Dieses Verfahren wird – mit Ausnahme des Scannens – auch auf elektronisch eingehende, aber nicht durchsuchbare Dokumente, z.B. TIF-Dateien, angewandt. Durchsuchbare PDF-Dateien werden direkt in die Analyse geschleust.

Vorrangiges Einsatzfeld: Rechnungseingangs-Management

Beim klassischen – papierbasierten – Rechnungseingangs-Management extrahieren die Systeme Werte wie z.B. Absender, Beleg-Datum und Nummer, Einzel- und Gesamtbeträge, Mehrwertsteuer-Sätze und -Beträge nach vorgegebenen Regeln aus den Dokumenten. Meist unabhängig von deren Form. Die extrahierten Werte werden in einer Freigabe-Maske angezeigt. Findet das System Werte nicht, bleiben die Felder leer, ist das Ergebnis nicht eindeutig, werden die Felder farbig markiert. In beiden Fällen können Mitarbeiter die Fehler einfach beheben.

Eingangsrechnungen, später auch weitere Dokumente im ZUGFeRD-Format (künftig Factur-X?) lassen sich voll-automatisiert verarbeiten. Siehe ZUGFeRD-Seite.

Bei eingehender Korrespondenz richtet sich der Fokus meist darauf, Absender samt Adresse, aus dem Betreff Aktenzeichen oder das Anliegen (Bestellung, Reklamation, Informationswunsch usw.) zu erkennen, damit die Dokumente automatisch an die richtige Stelle zur Bearbeitung geleitet werden können. Manche Programme sind in der Lage, anhand des Texts die richtige Entscheidung für die Weiterverarbeitung zu treffen.

Zum Absichern der Analyse-Ergebnisse greifen die Programme auf Datenbanken z.B. mit Kundendaten, Aufträgen oder Vorgängen zu. Gut gemachte Programme „lernen“ aus Fehlern. Sie können sich Fundstellen bestimmter Werte aus den Dokumenten bestimmter Aussteller merken, sobald man sie ihnen einmal „gezeigt“ hat.