Qu’est-ce que l’océrisation ?
Par définition, l’océrisation désigne le recours à l’Optical character recognition (OCR), connu en français sous le nom de Reconnaissance optique des caractères (ROC), terme moins utilisé pour définir ce même procédé.
Cette abréviation définit le processus par lequel un fichier contenant de l’image est automatiquement converti en un document textuel.
Concrètement, les supports “image” qui peuvent être scannés sont les suivants:
- le document imprimé ;
- la photo numérique (prise par un appareil) ;
- le feuillet dactylographié.
De là, l’océrisation va consister à transformer le contenu en l’un des formats suivants :
- le texte simple ;
- le traitement de texte (.doc, .docx) ;
- le fichier XML.
Aujourd’hui, les logiciels OCR les plus performants permettent d’identifier et de conserver certaines spécifications du texte comme :
- le gras ;
- le souligné ;
- l’italique ;
- la taille de police ;
- le type de police ;
- la mise en page (sauts de lignes, indentation) ;
- les illustrations (tableaux, graphiques et images).
Malgré le fait que le processus d’océrisation puisse être assimilé à une pratique des plus récentes, il n’en est rien : déjà en 1929, Gustav Taschek, ingénieur allemand, créait le premier système d’OCR à partir d’un détecteur photosensible capable de reconnaître et détacher certaines suites de caractères selon une bibliothèque de gabarits mémorisés par la machine, reconstituant ainsi des mots.
Depuis, évidemment, l’essor technologique a vu se développer cette pratique et l’intégrer dans le quotidien des particuliers comme des entreprises.
Bon à savoir : Pour l’anecdote, sachez que Stevie Wonder lui-même a financé, en 1976, un dérivé de l’OCR conçu par Ray Kurzweil permettant aux aveugles la lecture sur support informatique (bien que sommaire à l’époque !).
Océrisation : comment ça marche ?
Dans la pratique, cinq étapes jalonnent le processus d’océrisation d’un document au format image.
#1 : la préanalyse de l’image
Avant toute chose, l’image est mise aux normes du logiciel d’OCR via d’éventuelles améliorations comme le redressement et recadrage, le rognage, l’adaptation du contraste et de la luminosité, le passage en mode bicolore (noir et blanc) ainsi que la détection de contours.
#2 : la segmentation de l’image
L’image est ensuite segmentée en ligne de caractères, puis en caractères à part entière. On procède donc ici à un travail d’identification et d’isolement de chaque symbole dans le texte.
#3 : la reconnaissance des caractères
Une fois chaque caractère isolé, il est nécessaire de reconnaître ces derniers. Pour cela, trois méthodes existent, à savoir :
- la méthode métrique, visant à comparer le caractère avec l’ensemble des modèles stockés dans la bibliothèque du logiciel sans aucune classification antérieure (cette méthode est peu valorisée car jugée plus chronophage) ;
- la méthode des features, faisant correspondre chaque caractère à une banque contenant entre 100 et 300 nuages de points afin d’y associer le plus proche ;
- la méthode statistique ou probabiliste, s’appliquant davantage à la reconnaissance d’écritures manuscrites dont les caractères sont moins aisément reconnaissables.
#4 : le post-traitement
Une fois chaque caractère associé, le post-traitement représente une mise en contexte linguistique afin de réduire le nombre d’erreurs potentielles dans l’identification isolée de chaque caractère. Le logiciel passe ainsi par l’utilisation des règles de grammaire, d’un dictionnaire de mots intégré ou de n-grammes (séquences de caractères ou de mots).
#5 : la génération du format de sortie
Enfin, le format de sortie est généré selon les préférences de l’utilisateur. Notons que les documents dactylographiés sont bien plus facilement convertibles par l’OCR que les documents manuscrits.
Aussi, de nombreux logiciels intègrent une fonctionnalité d’apprentissage afin d’enrichir et d’adapter constamment leur banque de caractères.
Malgré cela, il demeure impossible de réduire le taux d’erreurs de conversion à zéro à cause de critères comme :
- la qualité du document image initial ;
- les polices employées ;
- les notes adjacentes ;
- la forme du texte.
Exemples d’océrisation
Le concept d’océrisation est mobilisé dans de nombreux domaines, dont la numérisation des notes de frais : c’est ce que propose l’OCR Au-delà des limites (ADDI) proposé par Jenji.
Au travers d’une intelligence artificielle basée sur le deep learning, le logiciel propose un taux d’erreur parmi les plus faibles sur le marché et permet non seulement de convertir l’image au format texte, mais aussi de classifier ce dernier dans les champs correspondants comme les montants, la catégorie de dépense ou encore l’identité du vendeur.
Ce système OCR fonctionne aussi bien sur le web que sur mobile (iOS et Android) et permet entre autres le traitement de justificatifs comme les notes d’hôtel, les tickets restaurant et les tickets de caisse.
Là où des tâches comme la saisie manuelle des notes de frais pouvaient consommer de nombreuses heures perdues et sans valeur ajoutée, l’océrisation automatise le processus pour un gain de temps et d’argent loin d’être anodin.