Comment extraire des données d’un document ?

février 9, 2018
Processus

La data est devenue un enjeu pour les entreprises qui cherchent à extraire des informations à l’aide d’un logiciel pour développer de nouveaux outils, de nouveaux logiciels ou de nouvelles fonctionnalités pour satisfaire les besoins des clients. Extraire des données d’un document n’est pas chose facile. Cependant, il s’agit d’une fonctionnalité de plus en plus recherchée par les entreprises.

Pour pouvoir collecter les données présentes dans un fichier et les récupérer, il faut d’abord identifier la source. Il peut s’agir d’une page web au format HTML, d’un tableau dans un classeur Excel ou d’une image. En fonction du type de fichier, les outils d’extraction et les logiciels à utiliser ne seront pas les mêmes.

Le processus d’extraction des données d’un document est composé de deux parties : lire le fichier, puis identifier les informations intéressantes pour effectuer leur extraction à l’aide d’un logiciel.

Étape #1 : Lire les fichiers pour en extraire les données d'un document

Afin d’extraire des données à partir d’un fichier de façon automatique, il faudra qu’il soit dématérialisé. Pour faire l’extraction des informations présentes dans un fichier, il faut d’abord identifier son format : une page web au format HTML, un tableau Excel, une image. Il faut également s’assurer de la qualité du fichier.

Améliorer la qualité de l’image pour extraire des données : le traitement d’images

L’image doit être traitée afin de s’assurer de sa qualité et améliorer sa lisibilité :

Convertir l’image en texte pour l’extraction des données : reconnaissance optique de caractères

Le Reconnaissance Optique de Caractères (ROC, OCR en anglais) est un processus populaire qui permet la conversion d’un texte dactylographié ou manuscrit en texte encodé. Ces procédés se sont drastiquement améliorés grâce au machine learning et au deep learning.

Vous pouvez utiliser un logiciel dans votre entreprise pour répondre à ce besoin. Voici une liste de logiciels : Wondershare PDFelement, OmniPage 18, ou OmniPage Ultimate.

Étape #2 : Identifier les données à récupérer et les extraire

Il existe deux manières d’identifier les données d’un document : l’une est fondée sur des règles prédéterminées, l’autre sur du machine learning. Vous pouvez utiliser un outil ou un logiciel ayant ces fonctionnalités.

Aujourd’hui, le machine learning se perfectionne dans l’identification lexicale de textes en ce qui concerne la recherche d’ensembles de données à extraire comme :

Différents modèles sont disponibles sur le Web. Les corpus de la source de données utilisés sont tirés de Wikipédia ou de journaux. Il y a donc une partialité et des particularités dans l’utilisation de la data. Il est préférable d’augmenter la liste des données sources afin de la rendre la plus complète possible.

Le logiciel de machine learning, qu’il soit dans le cloud ou en local, vous facilite la tâche puisqu’il agit indépendamment du langage choisi.

Le scraping : un processus populaire pour l’extraction des données

Le scraping est un processus populaire permettant d’extraire des données d’un ou de plusieurs sites web de manière totalement automatique.

Le scraping, web scraping ou encore harvesting, permet d’abord de réutiliser des informations présentes dans le code HTML d’un site web en le lisant ligne par ligne pour l’afficher sur un autre site web, et ainsi multiplier sans effort le nombre de pages web disposant d’un même contenu. Cela permet un meilleur niveau de référencement d’un site web, mais est sanctionné sévèrement si détecté. Le web scraping peut également être utilisé comme un outil de surveillance des concurrents ou comme un logiciel de veille concurrentielle, en suivant l’évolution des prix par exemple.

Le data scraping (ou extraction de données en français) est un processus populaire qui permet d’extraire des données depuis une source lisible par un être humain, donc non structurée et non optimisée pour une extraction facile des informations. Il peut également servir à s’interfacer avec un programme plus ancien qui ne dispose pas d’API.

ETL : un processus populaire d’extraction et de modification des données

ETL, pour Extract Transform Load, désigne un processus d’extraction permettant de mettre en place des pipelines de données. L’ETL a pour fonctionnalités la gestion et l’automatisation du transit et de la mise en forme de données entre des sources de données et les utilisateurs finaux.

Les entreprises cherchent à extraire des informations à partir des données web présentes sur une page au format HTML, dans un tableau Excel ou une photo. À l’aide d’un outil, d’un logiciel ou d’une API, elles obtiennent ces informations nécessaires pour développer du nouveau code d’application, de nouveaux outils, de nouveaux logiciels ou de nouvelles fonctionnalités en fonction des besoins des clients. Ce processus est de plus en plus populaire avec l’émergence du Big Data et l’utilisation du cloud.

Pour aller plus loin

Les conférences CoNLL (Computational Natural Language Learning) rassemblent les principaux acteurs du milieu et mettent à disposition des datasets. Ils amènent aussi des travaux de recherche sur le sujet. Le fait d’identifier et de faire comprendre des liens dans un texte est notamment encore au stade de développement. Le deuxième article concernant le traitement automatique de langage naturel approfondira encore davantage le sujet, à suivre.