Le DataOps s’est imposé ces dernières années comme un sujet incontournable pour les entreprises souhaitant mettre en place des projets informatiques à grande échelle.
Il est courant de voir de nouvelles technologies arriver, suivies d’un changement des processus et méthodes. C’est exactement le cas du DataOps, qui vient combler un besoin des entreprises pour des méthodes adaptées à des projets d’analyse de données qui n’existaient pas (ou peu) il y a dix ou vingt ans.
Le DataOps est donc une réponse pour aider les entreprises à s’adapter aux technologies de la data. Il s’appuie sur trois piliers que nous allons détailler dans cet article.
DataOps et méthodologies Agile
Qu’est-ce que la méthodologie Agile ?
La méthode Agile a été créée pour répondre à l’inefficacité des approches auparavant utilisées dans la production de logiciels et programmes informatiques.
On peut retrouver les principes de cette méthodologie dans le « Agile Manifesto » publié en 2001 et signé depuis par de nombreux experts du secteur.
La méthodologie Agile correspond à un état d’esprit basé sur 12 principes.
Vous pouvez trouver le détail de chaque principe dans le manifeste ; les points clés en quelques mots sont :
- considérer les imprévus comme inhérents au projet et donc s’organiser de sorte à les intégrer avec le moins de friction possible ;
- faire collaborer dès le départ toutes les parties prenantes (clients, utilisateurs…) et communiquer (très) régulièrement avec tous ;
- livrer aussi tôt que possible une version fonctionnelle, mais minimale, puis itérer et livrer des améliorations aussi régulièrement que possible ;
- toujours aller à l’essentiel ;
- régulièrement se remettre en question pour mieux s’organiser.
Les principes Agiles appliqués au DataOps
On retrouve en DataOps les principes et l’état d’esprit Agile.
Un principe que l’on retrouve particulièrement est cette idée de commencer simple, et ceci, pour deux raisons.
Tout d’abord, il est parfois difficile d’estimer les résultats d’un algorithme. Donc on commence toujours par créer une « baseline », une référence, qui est une première solution minimale à notre problème. Chaque changement est comparé à cette baseline (entre autres) pour évaluer son impact.
Ensuite, il est essentiel de mettre en production une première version de l’algorithme aussi tôt que possible.
Probablement, les résultats de cette première version seront peu satisfaisants et ce n’est pas important. L’essentiel est de pouvoir régler les problèmes et difficultés liés à la mise en production tant que l’algorithme est simple. Ceci accélèrera grandement le déploiement des versions suivantes.
L’orchestration des équipes en DataOps
Le DataOps s’inspire beaucoup du DevOps. Or, l’une des clés du DevOps, qui est aussi à l’origine de ce mot, est le travail collaboratif entre les équipes Dev (chargées du développement) et Ops (chargées du déploiement et du suivi).
En effet, auparavant, ces équipes travaillaient en silo. L’arrivée du DevOps a fortement favorisé une collaboration étroite entre ces équipes. Il en va de même avec le DataOps en rajoutant les équipes data dans l’équation.
Identifier en amont les parties prenantes pour les faire collaborer dès le lancement d’un projet data est une clé de réussite incontournable, on retrouve là aussi un principe du manifeste Agile.
Le DataOps et la gestion des données
Mettre en place une gouvernance des données
La gestion des données est un sujet complexe. On parle de plus en plus de gouvernance des données.
L’idée est de pouvoir répondre à des questions telles que :
- Quelles données sont contenues dans notre datalake ?
- Quelles sont nos sources de données ?
- Qui est responsable de la qualité et de la mise à jour de chaque donnée ?
- Qui a accès à quelles données ?
Ces questions semblent basiques, mais il est pourtant parfois compliqué d’y répondre ; d’où l’importance d’adopter des règles de gouvernance claires et connues de tous.
L’un des objectifs du DataOps : rendre les données fiables, accessibles et organisées
Les données sont le premier facteur de réussite (ou d’échec) d’un projet data.
Si la structure des données, leur qualité, leur disponibilité changent dans le temps, cela pose alors deux gros problèmes pour les personnes qui utilisent ces données :
- Premièrement, le nettoyage et l’exploration des données représentent une partie importante du travail des équipes data. Or, un changement des données demande de recommencer ce travail.
- Deuxièmement, le DataOps favorise l’automatisation des process via la mise en place de pipeline. Or, chaque changement en entrée d’un pipeline le rend inopérant.
En entreprise, on observe parfois une séparation forte entre d’un côté, les personnes qui s’occupent de collecter et stocker les données, et d’un autre, celles qui les utilisent, provoquant les problèmes cités ci-dessus.
Encore une fois, le DataOps s’attaque à ces problèmes, via notamment un étroit travail d’équipe, mais aussi via des process et des responsabilités claires.
Voilà donc les trois piliers du DataOps. Chacun de ces piliers cache de nombreux autres sujets divers et variés. De plus, de nouveaux problèmes apparaissent régulièrement et le DataOps évolue constamment.
La sécurité des données, par exemple, est un sujet qui manque encore de résonance dans la sphère data, mais qui est pourtant crucial pour les entreprises, en particulier après la récente vague de télétravail ; il y a fort à parier que le DataOps s’emparera de ce sujet.