Wie oft waren Sie in der Buchhaltung Ihres Unternehmens schon gezwungen, Daten aus einer Spesenabrechnung manuell in Ihren Computer einzugeben? Mit einer gültigen Erkennungsquote von 99 % laut der 2017 veröffentlichten Researchgate-Studie kann die optische Zeichenerkennung Ihren Alltag verändern: Hier erfahren Sie, wie dieser revolutionäre Geschäftsprozess funktioniert.
Was ist OCR?
OCR bezieht sich per Definition auf die Verwendung von Optical Character Recognition (OCR), ein weniger gebräuchlicher Begriff für das Verfahren selbst. Diese Abkürzung definiert den Prozess, durch den eine Datei mit Bildern automatisch in ein Textdokument umgewandelt wird. Konkret sind die "Bild"-Träger, die gescannt werden können ;
- das digitale Foto (mit einer Kamera aufgenommen) ;
- das maschinengeschriebene Formular.
Das Scannen besteht dann darin, den Inhalt in eines der folgenden Formate umzuwandeln:
- reiner Text ;
- Textverarbeitung (.doc, .docx) ;
- XML-Datei.
Die leistungsfähigste OCR-Software ermöglicht es heute, bestimmte Merkmale des Textes zu erkennen und zu erhalten, wie z. B. :
- fett ;
- unterstrichen ;
- kursiv ;
- Schriftgröße ;
- die Art der Schriftart ;
- Seitenlayout (Zeilenumbruch, Einrückung);
- Illustrationen (Tabellen, Grafiken und Bilder).
Obwohl das OCR-Verfahren als sehr junges Verfahren angesehen werden könnte, ist es das nicht: Bereits 1929 schuf der deutsche Ingenieur Gustav Taschek das erste OCR-System, das auf einem lichtempfindlichen Detektor basierte, der in der Lage war, bestimmte Zeichenfolgen anhand einer Bibliothek von Vorlagen, die von der Maschine gespeichert worden waren, zu erkennen und zu trennen und so Wörter wiederherzustellen.
Seitdem hat sich dieses Verfahren im Zuge des technologischen Aufschwungs natürlich weiterentwickelt und ist Teil des täglichen Lebens von Privatpersonen und Unternehmen geworden.
Gut zu wissen: Für die Anekdote sollten Sie wissen, dass Stevie Wonder selbst 1976 ein von Ray Kurzweil entwickeltes OCR-Derivat finanzierte, das es Blinden ermöglichte, mit Hilfe von Computern zu lesen (wenn auch damals nur in Ansätzen!).
Wie funktioniert OCR?
In der Praxis umfasst der Prozess des Scannens eines Dokuments im Bildformat fünf Schritte.
#1: Voranalyse des Bildes
Zunächst wird das Bild durch mögliche Verbesserungen wie Begradigung und Beschneidung, Anpassung von Kontrast und Helligkeit, Umschaltung auf Zweifarbmodus (schwarz-weiß) sowie Kantenerkennung an die Standards der OCR-Software angepasst.
#2: Bildsegmentierung
Das Bild wird dann in Zeichenzeilen und anschließend in vollständige Zeichen segmentiert. Wir gehen nun zur Identifizierung und Isolierung der einzelnen Symbole im Text über.
#3: Zeichenerkennung
Sobald die einzelnen Zeichen isoliert sind, müssen sie erkannt werden. Hierfür gibt es drei Methoden, nämlich :- die metrische Methode, die darauf abzielt, das Zeichen mit allen in der Softwarebibliothek gespeicherten Modellen ohne vorherige Klassifizierung zu vergleichen (diese Methode ist nicht sehr beliebt, da sie als zeitaufwändiger angesehen wird);
- die Merkmalsmethode, bei der jedes Zeichen mit einer Datenbank von 100 bis 300 Punktwolken verglichen wird, um das am nächsten liegende Zeichen zu finden;
- die statistische oder probabilistische Methode, die sich besser für die Erkennung von handschriftlichen Zeichen eignet, die nicht so leicht zu erkennen sind.
#4: Nachbearbeitung
Sobald jedes Zeichen zugeordnet ist, erfolgt eine linguistische Kontextualisierung, um die Anzahl der potenziellen Fehler bei der isolierten Identifizierung jedes Zeichens zu verringern. Die Software verwendet Grammatikregeln, ein integriertes Wortwörterbuch oder n-Gramme (Folgen von Zeichen oder Wörtern).
#5: Erzeugung des Ausgabeformats
Schließlich wird das Ausgabeformat nach den Wünschen des Benutzers erstellt. Beachten Sie, dass getippte Dokumente viel leichter durch OCR umgewandelt werden können als handgeschriebene Dokumente.
Außerdem verfügen viele Programme über eine Lernfunktion, um ihren Zeichensatz ständig zu erweitern und anzupassen. Trotzdem ist es nicht möglich, die Fehlerquote bei der Konvertierung auf Null zu reduzieren, und zwar aufgrund von Kriterien wie:
- die Qualität des ursprünglichen Bilddokuments ;
- die verwendeten Schriftarten ;
- die angrenzenden Notizen;
- die Form des Textes.
Beispiele für OCR
Das Konzept der OCR wird in vielen Bereichen eingesetzt, so auch bei der Digitalisierung von Spesenabrechnungen: Dies bietet Beyond Limits OCR (ADDI) von Jenji.
Durch eine künstliche Intelligenz, die auf Deep Learning basiert, bietet die Software eine der niedrigsten Fehlerquoten auf dem Markt und ermöglicht nicht nur die Umwandlung des Bildes in das Textformat, sondern auch die Klassifizierung in den entsprechenden Feldern wie die Beträge, die Kategorie der Ausgaben oder die Identität des Verkäufers.
Dieses OCR-System funktioniert sowohl im Web als auch auf mobilen Geräten (iOS und Android) und ermöglicht die Verarbeitung von Belegen wie Hotelrechnungen, Restaurantquittungen und Kassenbons.
Wo Aufgaben wie die manuelle Eingabe von Spesenabrechnungen viele Stunden vergeudete Zeit und keinen Mehrwert bedeuten, automatisiert OCR den Prozess, um Zeit und Geld zu sparen.