Retrouvez-nous le 14 mai au Google Cloud Summit à l'Accor Arena - Paris !

logo saagie red
passer un projet data en production Saagie dataops

Comment amener un projet data en production ?

Les chiffres parlent d’eux-mêmes : selon une étude de Forrester Consulting, plus de 60 % des projets de transformation numérique en entreprise échouent. La notion de risque est inhérente aux projets data. Pour réduire ce risque, optez pour une approche orientée production. Pour cela, retenez un seul mot : le DataOps

Les défis sont multiples en big data (le POC, le shadow IT…), mais il y a surtout un mur très compliqué à sauter : celui de l’industrialisation du produit data. En effet, si la phase de mise en place ou de démarrage peut s’avérer complexe, le processus de mise en production d’un projet data l’est bien plus encore.  

Les principaux freins à la production de projets data

Les freins technologiques

Lorsqu’un projet data science échoue, l’une des causes principales est d’ordre technique. Parfois, le data scientist utilise un framework ne permettant pas d’introduire le code et/ou ne permettant pas d’intégrer les résultats directement dans le système de production. Par exemple, en machine learning, un modèle développé avec des frameworks comme PyTorch ou Keras nécessite un ajustement avant intégration à Apache Spark ML. 

L’objectif ici est de réduire autant que possible le décalage entre l’environnement de développement et celui de mise en production d’un projet data science.

Les freins humains

Contrairement à la « machine », l’être humain n’est pas toujours « stable » dans l’exercice de son métier. Manque d’implication, manque de compétences, mauvaises applications des méthodes de travail prédéfinies avec le chef de projet, ou encore difficulté à faire face au changement de processus sont quelques-unes des raisons pouvant interférer dans la réussite d’un projet data.

De plus, là où l’intelligence artificielle doit être minutieusement paramétrée pour interagir avec d’autres machines et outils, la communication entre les hommes est tout aussi essentielle pour la production d’un projet data… mais bien plus compliquée.

Séparer l’équipe de data scientists de l’équipe de production pourrait – par exemple – avoir un impact négatif en ce qui concerne la communication entre les services de l’entreprise. Du fait de réductions budgétaires, de nombreuses entreprises préfèrent délocaliser leurs équipes au risque de « casser » la synergie du groupe.

Le DataOps pour construire un projet big data orienté production

Le DevOps est une véritable révolution dans le milieu du développement software. En se focalisant sur l’efficacité des livrables ainsi que sur les cycles de test et de développement, le DevOps a amélioré la qualité, la stabilité et la vitesse du développement des applications big data.

Le concept de DataOps suit la même logique que celui des pratiques DevOps, mais adapté au big data et s’appliquant tout au long des étapes du cycle des données.

Avec une approche DataOps, tous les acteurs du Data Lab peuvent :

Le DataOps se focalise donc sur le développement des données du big data au lieu de l’application elle-même. D’un point de vue technique, on passe peu à peu d’un modèle CRISP, développé par IBM pour implémenter des projets Data Mining, à un modèle DataOps. 

La méthodologie du DataOps est en lien avec une organisation du Data Lab particulière ; le DataOps réunit en effet plusieurs métiers de la data : développement, opérations, sécurité & gouvernance des données, data scientistdata engineer… 

L’approche DataOps s’applique à toute la « chaîne data science ». Depuis la préparation des données jusqu’à la restitution des résultats en passant par le reporting, le DataOps fait le lien entre l’équipe data et l’IT.

La plateforme DataOps Saagie

La solution Saagie permet d’appliquer le DataOps dans tous vos projets big data, grâce notamment à :

Vous êtes enfin décidé à industrialiser vos solutions data science ? Pour que la mise en production de votre projet soit un succès, rappelez-vous de bien suivre les étapes clés d’un projet data :