Réflexion sur les enjeux des Data Labs distribués

Cover

Réflexion sur les enjeux des Data Labs distribués

Share on twitter
Share on linkedin
Share on pinterest
Share on reddit
Share on pocket
Share on email

Puisque les données font aujourd’hui partie intégrante des stratégies d’entreprise, la première étape est souvent de mettre en place un Data Lab. Le but de cette initiative est d’apporter de la valeur commerciale tout en testant de nouvelles technologies. Pour ce faire, les entreprises développent des cas d’usage qui sont adaptés à leurs enjeux stratégiques. Pour savoir comment réussir son Data Lab, je vous invite à jeter un oeil à notre article dédié mais aujourd’hui, nous allons nous intéresser aux Data Labs distribués et aux opportunités qu’ils offrent.

fonctionnement des data labs distribués

Tout d’abord, comment s’organise le Data Lab ? Comme vous pouvez le voir juste au-dessus, il rassemble de nombreux profils techniques et experts dans leur domaine (l’administrateur système, le Data Architect, le Data Scientist, le Data Engineer et le Data Analyst). Afin d’apporter une vision sur le produit et les problématiques business, le product owner (responsable projet) ainsi que des profils métiers viennent s’ajouter à la petite équipe.

Rares sont les Data Labs dont les projets atteignent la mise en production. Les raisons qui peuvent l’expliquer sont nombreuses mais pour commencer, il est intéressant de se concentrer sur la place du Data Lab au sein même de l’entreprise.

Avant de prendre la décision de mettre en place un Data Lab centralisé, les entreprises suivent généralement ce raisonnement :

  • Mes données ont une valeur commerciale
  • Mes données sont centralisées dans un lac de données
  • Je décide de mettre en place un Data Lab centralisé

Ensuite, après avoir investi des millions (et parfois plusieurs dizaines de millions), arrive le moment des questions de la direction : quel est le retour sur investissement ? Quels sont les cas d’usage mis en place et qu’apportent-ils ?

Comme il n’est pas toujours facile de répondre à ces questions, interviennent alors souvent des changements de stratégie, des conflits politiques internes ou encore des ajustements de budget qui finissent par enterrer lentement mais sûrement le projet.

Revenons donc sur quelques raisons qui conduisent généralement à ce genre d’échec :

  • Est-ce un problème humain ? Possible lorsque les différentes équipes qui suivent le projet ne sont pas alignées.
  • Est-ce un problème technologique ? Cela peut arriver en fonction des choix technologiques de chacun.
  • Est-ce un problème lié à la place du Data Lab au sein de l’organisation ? C’est très souvent le cas.

Chez Saagie, nous avons le privilège de travailler avec un grand nombre de grands comptes, et cela nous a permis de réfléchir à l’idée des Data Labs distribués. Notre conclusion est que l’idée vaut le coup de s’y intéresser davantage.

Les grandes entreprises ont des organisations complexes : elles sont bien souvent réparties sur de multiples sites, avec des directions commerciales et des modes de déploiement d’infrastructure IT différents. Dans ce contexte, le décalage qui se créé entre entre un Data Lab centralisé et les différents sites devient tout simplement trop important. Mettre en place des équipes pluridisciplinaires qui rendent possible la réussite d’un projet n’est jamais facile. L’alignement de compétences et de vision au sein même des équipes est un facteur critique de succès.

De plus, nous avons appris que le business doit être au coeur des décisions liées au projet data tout en considérant l’importance de la composante technique du projet.

Un Data Lab distribué est, par définition, proche du business. Il peut donc y avoir plusieurs Data Labs autonomes en fonction des différents sites de l’entreprises. Mais il ne faut pas imaginer par là que les Data Labs seront déconnectés du reste de l’entreprise. C’est là que le rôle de l’IT devient primordial: il doit faire le lien entre les Data Labs, leur mettre à disposition les données nécessaires à leurs travaux, et s’assurer de la mise en production des différentes expérimentations en cours.

Ce que notre expérience nous a aussi appris est qu’il est primordial pour les Data Labs distribués, au-delà des aspects techniques, d’avoir une gouvernance centralisée, une ligne de conduite définie et claire. Cela permet de définir les priorités en termes de cas d’usage, d’être aligné avec la stratégie de l’entreprise mais aussi de partager les bonnes pratiques et de les appliquer pour qu’elles puissent profiter à l’ensemble.

C’est au Data Office, sous la direction du Chief Data Officer (CDO), d’incarner cette gouvernance centralisée, mais nous reviendrons plus en détails sur son rôle dans un futur article.

Enfin, la dernière leçon que nous pouvons tirer de tout cela est peut-être la plus importante. Ce qui amène un tel projet à sa réussite tient en un seul mot : la confiance. L’IT doit pouvoir avoir suffisamment confiance en ces différentes entités que sont les Data Labs et les métiers pour les laisser agir de manière autonome. Inversement, en tant qu’unique fournisseur de données, l’IT doit être soutenu.

Et cela signifie une chose: la disparition du « Shadow IT »!

Surmonter les obstacles classiques comme les conflits d’intérêt est possible. Améliorer la qualité de ses données, de suggérer de nouvelles sources de données, de trier les jeux de données, de contribuer au catalogue de données de l’entreprise ou simplement de déclarer les données personnelles permet, à terme, de faciliter les échanges entre équipes. Encore faut-il que les équipes se donnent les moyens et aient les bons outils pour y parvenir.

Ce n’est qu’après avoir fait tout cela que vous pouvez vous considérer comme « data centric », « data driven » ou toute autre expression qui vous vient à l’esprit.

Plus facile à dire qu’à faire ?

Chez Saagie, nous avons passé les trois dernières années à concevoir notre Data Fabric. Il s’agit d’une solution prête à emploi orchestrant le meilleur des technologies data (open-source et commerciales) dans le but d’automatiser les processus de l’entreprise et de déployer des applications métier à grande échelle.

Cette Data Fabric aide les Data Labs à créer et partager des projets de manière agnostique, donc indépendante du choix de l’infrastructure ou de la technologie de stockage du lac de données. Dans un monde « hybride », les équipes pluridisciplinaires ont un réel besoin d’autonomie et de liberté qu’il faut tout de même contrôler en donnant la main à l’IT et dans ce contexte, Saagie pourrait s’imposer comme la solution idéale pour le faire.