Retrouvez-nous le 14 mai au Google Cloud Summit à l'Accor Arena - Paris !

logo saagie red
illustration blog data steward

Qui est le Data Steward, l’organisateur de vos données ?

Le Data Steward, nouveau profil apparu avec la montée de la data, est un coordinateur de données et l’administrateur de votre lac de données. Il est la personne en charge de l’organisation et de la gestion de vos données. Son objectif principal est d’être garant de la qualité de la donnée et de l’adapter à votre entreprise, en ajoutant notamment des informations qui viennent requalifier vos données et lui apporter une réelle valeur ajoutée. Son rôle est donc de capturer l’information et de documenter la donnée avec un certain nombre d’éléments de définition.

Quelles sont les principales responsabilités du Data Steward?

Le Data steward doit s’assurer que chaque élément du lac de données:

  • soit correctement défini: si le besoin s’en fait sentir le Data Steward renomme les éléments qui se trouvent dans votre lac de données afin de leur donner un nom adapté au métier. Par exemple, votre donnée peut être stockée dans votre lac en tant que “z-cust-orders” ce qui ne signifie rien pour l’utilisateur final. Le Data Steward renommera donc cet élément selon son sens métier: “vente client”, qui sera alors plus adapté.
  • il s’assure qu’aucun doublon ne soit répertorié dans le lac afin d’éviter une perte de temps ou une possible confusion. Cependant, il est possible que certains doublons existent, par exemple, une liste de clients provenant du service “Comptabilité” et une autre provenant du service “Sales”. Dans ce cas, le Data Steward devra préciser quelle est la donnée maître, c’est-à-dire la donnée de référence.
  • Le Data Steward veille aussi à éviter toute obsolescence de la donnée, en supprimant les éléments non pertinents ou inappropriés .
  • il vérifie la provenance ainsi que leur niveau de confiance, c’est-à-dire si la donnée a préalablement été vérifiée et de ce fait si elle peut être utilisée en toute confiance.
  • il s’assure que chaque élément (chaque Dataset) contient les bonnes informations, et que chaque table est bien mise à jour. En effet, l’un des rôles les plus importants du Data Steward est de requalifier la donnée en fournissant à l’utilisateur le plus d’informations possible sur chaque Dataset: nom d’origine, taille, dates de modification, provenance, niveau de confiance et statut de la donnée.

Seul le Data Steward a la capacité et l’autorisation de gérer et modifier la donnée. Le travail du Data Steward est primordial puisque c’est lui qui va organiser votre lac de données en requalifiant un par un chaque élément qui s’y trouve afin d’obtenir une donnée sûre et qualitative et dont l’utilisation sera optimisée.

Le rôle du Data Steward est considéré comme primordial de part le lien de confiance qu’il instaure entre l’utilisateur final et la plateforme de Data Governance. C’est en effet lui qui fournit au client un accès facilité et rapide à sa donnée. Lorsque le client est face à un doute sur la véracité ou la pertinence de sa donnée, il peut alors se référer directement au Data Steward. De plus, étant généralement interne à l’entreprise, il a une parfaite connaissance de son environnement et peut adapter ses références et informations à l’entreprise elle-même.

Si l’utilisateur n’arrive pas à accéder rapidement à la donnée souhaitée ou répondant à son besoin métier, il perdra toute confiance en la véracité de sa donnée et abandonnera cette solution pour retourner vers un outil d’exploitation classique. L’objectif d’une plateforme telle qu’une Data Fabric couplée à Saagie Data Governance est de pouvoir fournir un réel outil de classement, d’analyse et d’exploitation de la donnée qui pourra être utilisée en toute confiance par les utilisateurs métiers.

La gestion et l’organisation du lac de données est donc essentielle à une meilleure compréhension de la donnée et une réelle maximisation de l’accès à l’information.

Bien sûr, le Data Steward travaille en relation avec le Data Analyst, le Data Scientist, le Data Architect, qui vont analyser, exploiter et réutiliser la donnée en lui allouant un sens métier. La gestion de la donnée (“master data stewardship”) doit avoir un rôle précis qui est généralement non pas de transformer la donnée mais de l’ajuster à son utilisation finale.

Les enjeux de ce poste pour votre entreprise

Sans données de qualité ou d’architecture robuste, votre entreprise s’expose à un certain nombre de risques minimisant sa productivité et ses performances économiques. La preuve en est la hausse du nombre d’entreprises qui font appel au Big Data pour gérer et optimiser leurs ressources.

Les entreprises intègrent de plus en plus d’ERP à leurs systèmes de données qui permettent d’automatiser leurs opérations. Cependant, ces opérations sont bien souvent de type transactionnel et bien qu’elles permettent l’optimisation d’ajout, de modification ou encore de suppression de la donnée, les opérations transactionnelles représentent souvent un manque de flexibilité pour l’entreprise.

Pour répondre à leur besoin métier, les entreprises commencent alors à générer d’immenses lacs de données qui peuvent vite se transformer en marais de données ou “Data swamps”. C’est ici qu’intervient le Data Steward qui va alors mettre de l’ordre dans votre lac, enrichir l’information pour vous aider à prendre les décisions adaptées. Sans un Data Steward pour ordonner la donnée, le Big Data peut être un vrai challenge.