La data est à la mode ces dernières années et beaucoup d’entreprises investissent des moyens et des ressources dans ce domaine. Cependant, ce sont des projets souvent complexes et innovants, autant d’un point de vue technique que managérial. Par conséquent, des méthodes ont été développées pour gérer ces projets, c’est le cas notamment du DataOps.
Le DataOps est une approche de travail développée dans l’objectif de mener à bien, et dans les meilleurs délais, des projets datas. Et le besoin est réel ! En 2019, VentureBeat signalait que 87 % des initiatives data en entreprise n’atteignaient jamais le stade de production.
Alors, quelles sont les priorités mises en avant par le DataOps pour aider les entreprises à accomplir des projets d’analyse des données ou d’intelligence artificielle ?
Le DataOps est avant tout une méthode
Un premier aspect du DataOps est relatif aux méthodes et process à appliquer. En effet, un projet data doit suivre des étapes avec des validations comme n’importe quel autre projet.
Découper un projet data en 3 étapes : bac à sable, pilote et production
Une première priorité énoncée par le DataOps est la nécessité d’avoir plusieurs étapes dans le cycle de vie d’un projet data.
Plus spécifiquement on retrouve :
- une première étape « bac à sable », dont l’objectif est l’exploration des données et l’expérimentation, pour pouvoir dégager des pistes pertinentes. Analyser les données est par définition très exploratoire, cette étape est donc essentielle ;
- la phase pilote, pour confronter l’idée retenue au monde réel et voir si la pratique est raccord avec ce à quoi on s’attendait ;
- la dernière étape est la mise en production, pour permettre l’adoption à l’échelle de toute l’organisation et ainsi en faire profiter le maximum de personnes.
Définir des indicateurs en amont du projet
On dit souvent que « le mieux est l’ennemi du bien ». Cette expression s’applique parfaitement en data : il est facile (et malheureusement courant) de complexifier un calcul, un algorithme, pour essayer de faire mieux.
Cependant, l’un des risques est de se retrouver avec des résultats difficilement compréhensibles et explicables, et donc un résultat peu exploitable. Il est donc essentiel d’avoir défini en amont des indicateurs qui permettent d’évaluer la pertinence de tout rajout, de tout changement.
Il s’agit là d’une des priorités du DataOps : mettre en place des indicateurs pertinents dès le début d’un projet data.
Le DataOps fait tomber les barrières au sein de l’entreprise
Le deuxième aspect important en DataOps est la collaboration entre les équipes (techniques ou non) et les parties prenantes.
Éviter les effets de Silo pour l’équipe data
Le DataOps met l’accent sur l’importance de ne pas isoler l’équipe data du reste de l’entreprise, mais justement de l’intégrer intelligemment au sein de l’organisation.
Lars Albertsson, fondateur de Scling, explique ce problème dans une interview lors du Data 2030 Summit : beaucoup d’entreprises pensent que recruter une équipe de data scientist suffira à produire des modèles et donc, in fine, à ajouter de l’IA dans leurs produits.
Le problème est qu’un modèle de machine learning ne fonctionne jamais comme prévu, il faut l’adapter à la réalité du terrain. Or, si les data scientists ne sont pas présents à chaque étape du processus (déploiement et monitoring inclus), personne ne sera capable de réaliser ces adaptations lorsque ce sera nécessaire.
Faire collaborer toutes les parties prenantes
Au-delà de l’intégration des profils data au sein de l’organisation, c’est aussi le travail collaboratif de l’ensemble des parties prenantes qui est essentiel.
Pour pouvoir générer des cas d’usages pertinents tout d’abord : un projet data est la combinaison de connaissances métiers et d’expertise technique. L’équipe data apporte l’expertise technique, mais les connaissances métiers sont éparpillées à travers tous les départements d’une entreprise. Or, il faut que cette information remonte à l’équipe data pour que des projets prometteurs voient le jour.
C’est nécessaire aussi pour piloter le changement et l’adoption de ces nouveaux outils. David Lepicier, head of Data chez Pernod Ricard, conseille d’investir un euro en conduite de changement pour chaque euro investi dans la data.
L’automatisation est l’une des clés en DataOps
Finalement, un point essentiel selon l’approche DataOps est la mise en place de pipeline et d’outil de monitoring pour pouvoir automatiser chaque étape tout en suivant l’état de santé du système.
C’est justement le constat que fait le CTO de C3.ai, fournisseur de services IA récemment introduit en bourse : le manque d’automatisation freine le développement des initiatives IA en entreprise.
Si l’automatisation permet d’améliorer la robustesse et la rapidité d’exécution des projets IA, cela présente aussi le risque de ne pas se rendre compte, par exemple, d’un changement qui aurait pu apparaître dans les données. D’où le complément indissociable de l’automatisation : le monitoring. Le DataOps met l’accent sur le suivi des opérations et la nécessité d’enregistrer chaque événement, à la manière d’une boîte noire dans un avion.
Voici donc quelles sont les priorités mises en avant en DataOps et qu’il faut absolument garder en tête lors de la réalisation de projets data !