Retrouvez-nous le 14 mai au Google Cloud Summit à l'Accor Arena - Paris !

logo saagie red

La phase pilote, étape de validation essentielle en DataOps avant le passage en production

Entre la naissance d’une idée et la mise en production d’un algorithme fonctionnel, un projet data passe par différentes étapes. Dans le cadre d’une approche DataOps, l’une de ces étapes est la phase pilote. Cette étape est une phase intermédiaire ayant lieu après la partie exploratrice et avant la mise en production.

On pourrait être tenté de simplifier l’ensemble du process et passer directement de la partie exploratrice à la mise en production. Cependant, la phase pilote est une phase essentielle qu’il ne faut pas négliger.

Nous allons voir dans cet article en quoi consiste cette phase et quel est son rôle dans un projet d’analyse de données.

DataOps : la phase pilote, étape essentielle pour valider votre projet data avant un déploiement

La phase pilote correspond à un micro-déploiement, un test en conditions réelles, mais à échelle réduite. Il peut s’agir par exemple de déployer un moteur de recommandations sur un site de e-commerce, tout en cantonnant son utilisation à un pourcentage du trafic.

À ce stade, on a donc un prototype stable et fonctionnel que l’on a déjà éprouvé sur des données de tests.

A. DataOps et phase pilote – tester in vivo votre projet data avec un risque limité

Typiquement, un projet data s’articule autour de trois étapes :

Évidemment, un projet data peut s’arrêter avant la mise en production si les conditions ne sont pas réunies (c’est d’ailleurs le cas d’une grande majorité des projets data).

Mais alors, si on a déjà fait un POC lors de la phase exploratrice, quelle est l’utilité d’un pilote ?

Un POC sert à valider une idée et à démontrer sa faisabilité technique. Cependant, un POC réussi n’est pas synonyme de déploiement réussi, notamment pour deux raisons :

Donc le pilote sert, d’une part, à confronter votre projet à des conditions réelles (et donc à des données non biaisées), et d’autre part, à valider son utilité.

B. DataOps et phase pilote : anticipez les problèmes liés au déploiement de votre projet data

Un autre intérêt de la phase pilote est de faire face, dans une moindre mesure, aux problématiques liées à la mise en production, puisqu’il s’agit d’un micro-déploiement. C’est intéressant pour anticiper les problèmes à venir sans prendre de risques, d’autant plus que la mise en production est une phase coûteuse et demandant beaucoup de travail.

En effet, dans un projet abouti de machine learning, seulement une minorité du code correspond vraiment à du machine learning (environ 5 % d’après une étude menée par des ingénieurs de chez Google).

La très vaste majorité du code sert uniquement à intégrer la partie marchine learning à une infrastructure existante, comme illustré ci-dessous :

Infrastructure machine learning projet
Le machine learning est le bloc noir.

 

Certains de ces blocs n’apportent pas de valeur en tant que telle dans un projet d’analyse de données et sont nécessaires uniquement pour la mise en production.

 Il est donc préférable de s’assurer de l’intérêt d’un projet avant de lancer tous ces chantiers, d’où l’intérêt de la phase pilote !

Comment mener un pilote en DataOps ?

Maintenant que nous avons vu l’intérêt de la phase pilote, on peut se demander quels sont les points critiques de cette étape.

A. Établir des critères de performance pour votre pilote data

Nous l’avons dit, la phase pilote sert à valider l’intérêt de votre projet. Il faut donc fixer des objectifs ad hoc.

Tout d’abord, on peut prendre des critères techniques, tels que la précision si on parle d’un modèle de machine learning par exemple. Mais il est important de fixer aussi des critères business, comme le taux d’utilisation ou encore les gains en matière de ROI.

B. Définir un périmètre d’action pour votre pilote data

Un point critique du pilote est la définition du périmètre de déploiement. On le préfèrera le plus petit possible pour limiter les coûts, les difficultés et les risques, mais il doit être assez grand pour être représentatif et significatif. 

Si on reprend l’exemple du moteur de recommandations pour un site e-commerce, il est préférable que le pourcentage de trafic utilisé pour le pilote soit représentatif de l’ensemble du trafic et pas seulement d’un segment particulier (comme une tranche d’âge ou une zone géographique).

C. Mettre en place une stratégie de monitoring efficace

Encore une fois, en dataOps, la phase pilote est une phase de validation. C’est donc l’opportunité idéale pour récolter le plus d’informations possible via des outils de journalisation et de supervision (logging et monitoring). D’une part, pour évaluer les objectifs fixés en amont, mais plus largement, pour étudier le comportement de votre prototype en conditions réelles.

La journalisation et la supervision sont d’ailleurs deux aspects clés du DataOps, nous en parlons dans cet article. Il existe beaucoup d’outils à cet effet, tel Grafana ou ElasticSearch.

Une phase pilote correctement menée est la meilleure manière de valider l’utilité et la faisabilité d’un projet data, avec un risque limité et sans engager trop de temps et d’argent. Si les résultats sont satisfaisants, alors vous pourrez envisager de passer à la phase de mise en production. Le pilote aura en plus servi de préparation pour cette phase suivante, qui réserve aussi son lot de difficultés.

Vous pouvez lancer vos projets data avec Saagie, venez tester la plateforme gratuitement !