Retrouvez-nous le 14 mai au Google Cloud Summit à l'Accor Arena - Paris !

logo saagie red
illustration blog data lab definition

Tout savoir sur le Data Lab

Il est temps de donner de la valeur à vos données ! C’est pourquoi nous avons décidé de vous y aider. Pour ce faire, chaque semaine, nous lèverons le voile sur un outil, un concept ou un conseil pour concrétiser vos projets Big Data et IA. Vous pourrez ensuite les retrouver (et plus encore) dans notre livre blanc “La Data Fabric pour industrialiser les data labs”. Cette semaine, c’est donc avec le « Data Lab » que nous commençons.

Qu'est-ce qu'un Data Lab ?

Entrons dès à présent dans le vif du sujet : comme son nom l’indique, le Data Lab est un véritable laboratoire de la donnée. Pourquoi ? Car c’est un espace exclusivement dédié à l’expérimentation et à la qualification « fonctionnelle » des différentes données de l’entreprise. En effet, il permet d’explorer des jeux de données, de les traiter mais aussi de mettre à l’épreuve des algorithmes de Machine Learning.

Pour l’imaginer, le Data Lab est semblable à une startup, agile et en constante évolution, mais qui prendrait place au sein même de l’entreprise. Il permet ainsi de devenir davantage data centric ou data driven, sans pour autant chambouler toute l’organisation d’une entreprise.

Pour mettre en production un projet de Data Science ou d’intelligence artificielle, l’ingrédient clé est une vision stratégique claire, partagée et soutenue par l’ensemble de l’entreprise. Si cela paraît évident c’est pourtant, selon Gartner, ce qui fait défaut dans la majorité des cas. Voilà pour la théorie mais dans la pratique, de quoi a-t-on besoin ? D’un Data Lab.

Sa création est essentielle à la réussite d’un tel projet. L’enjeu même d’une telle structure est de tirer profit de ses données, de les transformer en valeur ajoutée. Pour cela, le Data Lab permet de définir les cas d’usage les plus adaptés à l’entreprise, qu’il s’agisse de prévisions de tendance ou de détection de fraudes. 

Comment mettre en place un Data Lab ?

Pour mettre en place un Data Lab, il faut tout d’abord avoir défini ses objectifs au préalable. En effet, et comme précisé par Gartner, sans alignement de l’ensemble de l’entreprise, le projet aura moins de chance d’atteindre la mise en production. Et ensuite, il faut bien sur des données.

Pré-requis : Le Data Lake

Avant de s’intéresser aux données, il faut déjà savoir où les mettre. C’est le rôle du « lac de données ». Toutes vos données, structurées ou non y sont regroupées et accessibles, et peuvent être enrichies tout au long du déroulement de votre projet. Quant à l’exploitation de données, elle n’est possible qu’avec un certains nombres de technologies (Spark, Talend, Avro, Atlas, Hadoop, Cassandra et bien d’autres encore). Ainsi, d’autres outils seront nécessaire afin d’assurer l’extraction et l’importation de données, leur traitement, leur gouvernance ou encore leur protection. Ce à quoi pourront s’ajouter différentes technologies pour des projets de Data Science. Après avoir rassemblé toutes ces technologies qui seront les outils permettant à vos équipes de travailler, ne restent plus que les données à intégrer.

Après avoir identifié les ressources nécessaires, la mise en place d’une équipe est ensuite primordiale, et ce n’est pas une mince affaire. Il faudra alors privilégier les profils techniques experts dans leur domaine (le Data Architect, le Data Scientist, le Data Engineer et le Data Analyst), auxquels s’ajoutent le Product Owner qui apportera la vision sur le produit et les profils métiers qui apporteront leur connaissance sur les problématiques business. Si tous les profils doivent interagir à un moment ou un autre, certains seront même amenés à collaborer étroitement.

Le Chief Data Officer

Le Chief Data Officer (CDO) veille à ce que l’organisation adopte une stratégie data driven et a une connaissance globale des différentes profils. Le CDO reçoit comme input un besoin client et doit le restituer à l’ensemble de l’équipe en transformant le discours du client en une liste de fonctionnalités à développer. Il n’est donc pas rare de l’entendre parler de budget, de chiffrage et des besoins métiers !

Notre conseil : évitez de lui parler à un niveau technique trop précis car, même s’il doit être familiarisé avec les technologies Data, il n’est pas forcément à jour des dernières technologies utilisées.

Le Data Scientist

Le Data Scientist est au coeur de l’équipe data ; il doit d’une part livrer des modèles aux Data Engineers, et d’une autre part rendre les résultats lisibles pour le client – souvent accompagné d’autres profils comme le Data Analyst. Il prend connaissance du besoin client à travers le CDO ainsi que des consignes de développement mises en place par le Data Engineer.

Notre conseil : avec lui, vous pouvez parler des réseaux de neurones, de code Python ou R ou de la manière de présenter les résultats au client. En revanche, il ne sera pas aussi précis concernant les discussions commerciales et ne sera pas forcément en mesure de répondre à toutes les subtilités de l’architecture des données.

Le Data Engineer

Le Data Engineer maîtrise parfaitement les outils techniques qui permettent de manipuler la donnée. Il travaille étroitement avec l’Architecte Big Data, avec qui il partage la gestion de l’infrastructure. Le Data Engineer fournit un accès simple aux données aux data scientists et intègre les modèles du data scientist en production.

Notre conseil : le vocabulaire en lien avec les bases de données n’a pas de secrets pour lui, vous pourrez également parler des APIs qu’il a créées à partir des modèles développés par les Data Scientists. Évitez les notions de budget et de présentation client.

Le (Business) Data Analyst

Le Data Analyst se situe entre le Data Scientist et le client final et s’occupe de traduire parfaitement les besoins du client en consignes techniques. En tant que spécialiste de la communication business, il restitue les résultats techniques aux clients.

Notre conseil : il peut solliciter le Data Engineer pour réaliser des analyses simples sur un échantillon de données. Ainsi, il sera à l’aise avec certaines notions de base de données et de traitement de données. En revanche, évitez le vocabulaire trop scientifique.

Les défis du Data Lab

Une fois votre Data Lab en place, il faudra veiller à son bon fonctionnement. Pour cela, on vous a préparé quelques conseils et points d’attention pour vous faciliter la tâche. 

L'aspect politique

Même si d’un point de vue stratégique les membres du Comex comprennent la valeur d’une transformation numérique, en pratique les data labs opèrent souvent de façon isolée et doivent se battre pour leurs budgets. Lorsque les data labs répondent directement d’un membre du comité de direction, les chances qu’ils bénéficient d’un encadrement suffisant pour pouvoir évoluer selon les besoins de l’entreprise sont bien plus grandes. 

Encourager les entreprises au changement

Les technologies liées au Big Data semblent très complexes à première vue mais vont sans nul doute se démocratiser. Il faut d’abord se concentrer sur les cas d’usage et inciter les collaborateurs à travailler ensemble (même si cela est plus facile à dire qu’à réaliser). La difficulté à construire une relation entre l’informatique et les métiers va bien au-delà de l’aspect technique : il existe des éléments variés comme des divergences de méthodes de travail, de culture, de niveau de compétences qui s’ajoutent à l’aspect humain et politique.

Rendre la donnée accessible est un défi à l'échelle de l'entreprise

Cela paraît tentant de se tourner directement vers des projets de data science compliqués. Cependant, notre expérience nous a appris que les entreprises commencent souvent par l’automatisation des chaînes BI afin de s’approprier les technologies Big Data. L’étape primordiale qui vient ensuite est de rendre les jeux de données accessibles aux utilisateurs métier et de connecter les outils de visualisation de la maison.

Pour y arriver, il faut une couche de métadonnées partagées (ou dictionnaire de données). Il est aussi nécessaire de mettre en place un procédé qui valide les demandes de jeux de données venant des métiers, tout en respectant les contraintes telles que les quantités de données, leur qualité, le traitement par batch ou temps réel, l’infrastructure nécessaire ou encore les difficultés liées à la sécurité des données. Seule une minorité d’entreprises  a pu mettre en oeuvre cela, ce qui confirme également que le seul datalab n’est pas la solution.

La gouvernance des données

C’est l’élément qui permet que tout fonctionne de façon coordonnée. Même si le RGPD (Règlement Général sur la Protection des Données) s’annonce comme une contrainte, une compréhension partagée de tous ces procédés est un pré-requis. Les métiers ont besoin d’avoir accès aux jeux de données, les analystes d’outils de visualisation et les développeurs d’un accès sécurisé aux données via des API. 

De plus, la gouvernance des données permet de déterminer si les données sont récentes, de bonne qualité et fournit un audit ainsi qu’une capacité de gestion. Savoir qui a eu accès aux données et faire l’historique des algorithmes utilisés assure la sérénité au sein des équipes ainsi qu’une confiance mutuelle. 

Se concentrer sur la mise en production dès le premier jour

Une erreur très courante est de travailler sur des POCs en mode shadow IT. Travailler avec des méthodes laborieuses et des contraintes imposées par le RSSI est éprouvant et prend du temps. C’est comme si vous montiez un escalier et qu’une marche apparaissait à chaque fois que vous étiez sur le point d’atteindre le sommet. Néanmoins, il est indispensable d’impliquer la DSI dès le début si vous avez bel et bien des envies de changement.

Comprendre la dette technique

Il y a toujours eu des initiatives data plus ou moins réussies. En revanche les vrais sujets sont souvent éludés, car personne n’aime communiquer sur ses échecs. Il est toutefois  important de bien comprendre les éléments qui ont mené à ces situations et d’en tirer les bonnes leçons. 

Comme vous pouvez le constater, la réalisation d’un projet Big Data / IA est complexe car elle implique une vision claire, une équipe pluridisciplinaire et un nombre important de technologies. C’est pourquoi l’implémentation d’un Data Lab est un élément déterminant, qui pourra permettre à votre projet de faire partie des 20% qui atteignent la mise en production. Pour en savoir plus, ne manquez pas la partie 2 de cette chronique qui sera consacrée au déroulé d’un POC.