OCR als Lösung zur Vermeidung der manuellen Erfassung von Dokumenten

Wie oft waren Sie in der Buchhaltung Ihres Unternehmens schon gezwungen, Daten aus einer Spesenabrechnung manuell in Ihren Computer einzugeben? Mit einer gültigen Erkennungsquote von 99 % laut der 2017 veröffentlichten Researchgate-Studie kann die optische Zeichenerkennung Ihren Alltag verändern: Hier erfahren Sie, wie dieser revolutionäre Geschäftsprozess funktioniert.

Was ist OCR?

OCR bezieht sich per Definition auf die Verwendung von Optical Character Recognition (OCR), ein weniger gebräuchlicher Begriff für das Verfahren selbst.

Diese Abkürzung definiert den Prozess, durch den eine Datei mit Bildern automatisch in ein Textdokument umgewandelt wird.

Konkret sind die "Bild"-Träger, die gescannt werden könnenthe printed document ;

  • das digitale Foto (mit einer Kamera aufgenommen) ;
  • das maschinengeschriebene Formular.

Das Scannen besteht dann darin, den Inhalt in eines der folgenden Formate umzuwandeln:

  • reiner Text ;
  • Textverarbeitung (.doc, .docx) ;
  • XML-Datei.

Die leistungsfähigste OCR-Software ermöglicht es heute, bestimmte Merkmale des Textes zu erkennen und zu erhalten, wie z. B. :

  • fett ;
  • unterstrichen ;
  • kursiv ;
  • Schriftgröße ;
  • die Art der Schriftart ;
  • Seitenlayout (Zeilenumbruch, Einrückung);
  • Illustrationen (Tabellen, Grafiken und Bilder).

Obwohl das OCR-Verfahren als sehr junges Verfahren angesehen werden könnte, ist es das nicht: Bereits 1929 schuf der deutsche Ingenieur Gustav Taschek das erste OCR-System, das auf einem lichtempfindlichen Detektor basierte, der in der Lage war, bestimmte Zeichenfolgen anhand einer Bibliothek von Vorlagen, die von der Maschine gespeichert worden waren, zu erkennen und zu trennen und so Wörter wiederherzustellen.

Seitdem hat sich dieses Verfahren im Zuge des technologischen Aufschwungs natürlich weiterentwickelt und ist Teil des täglichen Lebens von Privatpersonen und Unternehmen geworden.

Gut zu wissen: Für die Anekdote sollten Sie wissen, dass Stevie Wonder selbst 1976 ein von Ray Kurzweil entwickeltes OCR-Derivat finanzierte, das es Blinden ermöglichte, mit Hilfe von Computern zu lesen (wenn auch damals nur in Ansätzen!).

Wie funktioniert OCR?

In der Praxis umfasst der Prozess des Scannens eines Dokuments im Bildformat fünf Schritte.

#1: Voranalyse des Bildes

Zunächst wird das Bild durch mögliche Verbesserungen wie Begradigung und Beschneidung, Anpassung von Kontrast und Helligkeit, Umschaltung auf Zweifarbmodus (schwarz-weiß) sowie Kantenerkennung an die Standards der OCR-Software angepasst.

#2: Bildsegmentierung

Das Bild wird dann in Zeichenzeilen und anschließend in vollständige Zeichen segmentiert. Wir gehen nun zur Identifizierung und Isolierung der einzelnen Symbole im Text über.

#3: Zeichenerkennung

Once each character is isolated, it is necessary to recognize them. For this, three methods exist, namely :

the metric method, aiming to compare the character with all the models stored in the software library without any previous classification (this method is not very popular because it is considered more time consuming);

the features method, matching each character to a bank containing between 100 and 300 point clouds in order to associate the closest one;

the statistical or probabilistic method, which is more applicable to the recognition of handwritten characters that are less easily recognizable.

#4: Nachbearbeitung

Sobald jedes Zeichen zugeordnet ist, erfolgt eine linguistische Kontextualisierung, um die Anzahl der potenziellen Fehler bei der isolierten Identifizierung jedes Zeichens zu verringern. Die Software verwendet Grammatikregeln, ein integriertes Wortwörterbuch oder n-Gramme (Folgen von Zeichen oder Wörtern).

#5: Erzeugung des Ausgabeformats

Schließlich wird das Ausgabeformat nach den Wünschen des Benutzers erstellt. Beachten Sie, dass getippte Dokumente viel leichter durch OCR umgewandelt werden können als handgeschriebene Dokumente. 

Außerdem verfügen viele Programme über eine Lernfunktion, um ihren Zeichensatz ständig zu erweitern und anzupassen. Trotzdem ist es nicht möglich, die Fehlerquote bei der Konvertierung auf Null zu reduzieren, und zwar aufgrund von Kriterien wie:

  • die Qualität des ursprünglichen Bilddokuments ;
  • die verwendeten Schriftarten ;
  • die angrenzenden Notizen;
  • die Form des Textes.

Beispiele für OCR

Das Konzept der OCR wird in vielen Bereichen eingesetzt, so auch bei der Digitalisierung von Spesenabrechnungen: Dies bietet Beyond Limits OCR (ADDI) von Jenji.

Durch eine künstliche Intelligenz, die auf Deep Learning basiert, bietet die Software eine der niedrigsten Fehlerquoten auf dem Markt und ermöglicht nicht nur die Umwandlung des Bildes in das Textformat, sondern auch die Klassifizierung in den entsprechenden Feldern wie die Beträge, die Kategorie der Ausgaben oder die Identität des Verkäufers.

Dieses OCR-System funktioniert sowohl im Web als auch auf mobilen Geräten (iOS und Android) und ermöglicht die Verarbeitung von Belegen wie Hotelrechnungen, Restaurantquittungen und Kassenbons.

Wo Aufgaben wie die manuelle Eingabe von Spesenabrechnungen viele Stunden vergeudete Zeit und keinen Mehrwert bedeuten, automatisiert OCR den Prozess, um Zeit und Geld zu sparen.

Maria Khizhniakova