Comment amener un projet data en production ?

avril 5, 2023
Processus

Les chiffres parlent d’eux-mêmes : selon une étude de Forrester Consulting, plus de 60 % des projets de transformation numérique en entreprise échouent. La notion de risque est inhérente aux projets data. Pour réduire ce risque, optez pour une approche orientée production. Pour cela, retenez un seul mot : le DataOps.

Les défis sont multiples en big data (le POC, le shadow IT…), mais il y a surtout un mur très compliqué à sauter : celui de l’industrialisation du produit data. En effet, si la phase de mise en place ou de démarrage peut s’avérer complexe, le processus de mise en production d’un projet data l’est bien plus encore.

Les principaux freins à la production de projets data

Les freins technologiques

Lorsqu’un projet data science échoue, l’une des causes principales est d’ordre technique. Parfois, le data scientist utilise un framework ne permettant pas d’introduire le code et/ou ne permettant pas d’intégrer les résultats directement dans le système de production. Par exemple, en machine learning, un modèle développé avec des frameworks comme PyTorch ou Keras nécessite un ajustement avant intégration à Apache Spark ML.

L’objectif ici est de réduire autant que possible le décalage entre l’environnement de développement et celui de mise en production d’un projet data science.

Les freins humains

Contrairement à la « machine », l’être humain n’est pas toujours « stable » dans l’exercice de son métier. Manque d’implication, manque de compétences, mauvaises applications des méthodes de travail prédéfinies avec le chef de projet, ou encore difficulté à faire face au changement de processus sont quelques-unes des raisons pouvant interférer dans la réussite d’un projet data.

De plus, là où l’intelligence artificielle doit être minutieusement paramétrée pour interagir avec d’autres machines et outils, la communication entre les hommes est tout aussi essentielle pour la production d’un projet data… mais bien plus compliquée.

Séparer l’équipe de data scientists de l’équipe de production pourrait – par exemple – avoir un impact négatif en ce qui concerne la communication entre les services de l’entreprise. Du fait de réductions budgétaires, de nombreuses entreprises préfèrent délocaliser leurs équipes au risque de « casser » la synergie du groupe.

Le DataOps pour construire un projet big data orienté production

Le DevOps est une véritable révolution dans le milieu du développement software. En se focalisant sur l’efficacité des livrables ainsi que sur les cycles de test et de développement, le DevOps a amélioré la qualité, la stabilité et la vitesse du développement des applications big data.

Le concept de DataOps suit la même logique que celui des pratiques DevOps, mais adapté au big data et s’appliquant tout au long des étapes du cycle des données.

Avec une approche DataOps, tous les acteurs du Data Lab peuvent :

Le DataOps se focalise donc sur le développement des données du big data au lieu de l’application elle-même. D’un point de vue technique, on passe peu à peu d’un modèle CRISP, développé par IBM pour implémenter des projets Data Mining, à un modèle DataOps.

La méthodologie du DataOps est en lien avec une organisation du Data Lab particulière ; le DataOps réunit en effet plusieurs métiers de la data : développement, opérations, sécurité & gouvernance des données, data scientist, data engineer…

L’approche DataOps s’applique à toute la « chaîne data science ». Depuis la préparation des données jusqu’à la restitution des résultats en passant par le reporting, le DataOps fait le lien entre l’équipe data et l’IT.

La plateforme DataOps Saagie

La solution Saagie permet d’appliquer le DataOps dans tous vos projets big data, grâce notamment à :

la possibilité de versionner les jobs et pipelines, et d’exécuter le déploiement sur des environnements de production différents ;
d’opérer ces jobs ou pipelines en les orchestrant, les planifiant, en supervisant leur état, en diagnostiquant les problèmes de production (grâce à des logs détaillés de chaque job) et en contrôlant les versions des différents frameworks utilisés ;
en monitorant les différents travaux du Data Lab (technologies utilisées, type de traitement implémenté, complexité des workflows, etc.) ;
l’itération sur ces différents jobs ou pipelines, en déployant de nouveaux modèles du projet ou en faisant des rollbacks si besoin, et ce, de manière complètement transparente.

Vous êtes enfin décidé à industrialiser vos solutions data science ? Pour que la mise en production de votre projet soit un succès, rappelez-vous de bien suivre les étapes clés d’un projet data :

Choix du bon framework : élément essentiel pour pouvoir faire une transition vers la mise en production. Il faut homogénéiser ces outils au sein des équipes liées au projet big data.
Bonne maîtrise de la gestion des données par tous les membres du Data Lab : qualité et intégrité des données, monitoring, disponibilité, extraction et traitement.
Mise en place d’une bonne stratégie de développement, avec des cycles de livraison et de test. Autrement dit, adopter une stratégie DataOps.
Portabilité et flexibilité des développements : anticiper les migrations de plateforme, contrôler et suivre les versions du projet data, mesurer la capacité d’accès et de traitement des données tout au long du développement et des modifications de la solution.