DataOps : le DevOps 2.0

 

Le DataOps n’est-il que le DevOps appliqué aux données ou un nouveau paradigme permettant de déployer efficacement les projets Data & Analytics ?

Nouveau concept émergeant, le DataOps est né en réaction aux difficultés rencontrées dans le déploiement de projets Data & Analytics. Les faits sont là : 8 projets sur 10 ne vont pas passer l’étape de production.

 

Qu’est-ce que DevOps ?

Le terme « DevOps » vient de la contraction des mots anglais « development » et « operations ».

Le DevOps est une approche technique, organisationnelle et culturelle visant à améliorer la capacité d’une entreprise à livrer des applications et des fonctionnalités – le tout en gardant un rythme soutenu de delivery. 

L’enjeu principal est d’accélérer le « time-to-market » avec des cycles de développement plus courts, une augmentation de la fréquence des déploiements et des livraisons continues.

A titre d’exemple, les géants du web tels que Google ou Amazon ont réussi à réduire les cycles de livraison de logiciel de quelques mois à quelques secondes !

Le DevOps repose sur deux concepts fondamentaux : l’intégration continue (CI) et le déploiement continu (CD).

  • L’intégration continue consiste à construire, intégrer et tester de nouveaux codes de façon répétée et automatisée. Cette méthode permet d’identifier et de résoudre rapidement les potentiels problèmes.
  • Le déploiement continu automatise le déploiement ou la livraison de logiciels. Une fois qu’une application a passé l’ensemble des tests de qualification, le DevOps permet son passage en production.

En résumé, l’approche DevOps permet l’alignement entre les équipes de développement / exploitation et l’automatisation de chacune des étapes de la création d’un logiciel, de son développement à son déploiement, jusqu’à son administration.

 

Qu’est-ce que DataOps ?

Gartner définit le DataOps comme « une pratique collaborative de gestion des données axée sur l’amélioration de la communication, l’intégration et l’automatisation des flux de données entre les métiers de données (Data Engineers, Data Architects, Data Stewards) et les consommateurs de données « (Data Scientists, Business Analysts, Métiers ou autre service).

La promesse du DataOps est d’améliorer et d’optimiser le cycle de vie des projets Data & Analytics en matière de rapidité et de qualité.

Le DataOps utilise la technologie pour automatiser la conception, le déploiement et la gestion de la livraison des données. C’est un orchestrateur technologique au service de votre projet.

De même que le DevOps, le DataOps recentre vos projets sur la collaboration !

L’Agile Manifesto nous préconise « People over process over tools »; de nombreux profils sont en effet impliqués dans les projets Data & Analytics et tous doivent s’accorder pour collaborer autour du projet.

 

Les principes fondamentaux communs « Lean » et « Agile »

Le modèle de DataOps s’appuie sur le modèle de développement DevOps; Les deux approches intègrent toutes deux les principes « Lean » et « Agile ».

Nous retrouvons donc certaines pratiques communes et aspects techniques au DevOps et DataOps :

  • Automatisation (Intégration continue / Déploiement continu)
  • Tests unitaires
  • Gestion d’environnements
  • Gestion de version
  • Monitoring

Ces pratiques ont pour avantage de favoriser la communication et la collaboration de différentes équipes, ce qui permet un déploiement accéléré des projets et donc des coûts réduits.

 

Les différences principales

Au premier abord, les deux approches se ressemblent fortement mais à quelques différences près.

Même si le DevOps offre automatisation, agilité et efficacité, son intérêt est limité lorsqu’il s’agit de créer des applications qui traitent et analysent les données de façon continue.

L’un des aspects particuliers liés aux projets Data & Analytics consiste à construire et maintenir une data pipeline (ou flux de données).

On entend par data pipeline la conception de flux de données de sa création jusqu’à sa consommation.

Les données entrent continuellement d’un côté du pipeline, progressent à travers une série d’étapes et sortent sous forme de rapports, de modèles et de tableaux de bord.

Le pipeline de données est l’aspect « Ops » de l’analyse des données.

Un autre aspect différenciant du DataOps est lié à des spécificités de projets de Data Science :

  • Reproductibilité des résultats
  • Monitoring des performances du modèle : notez qu’un modèle de prédiction bon aujourd’hui, ne le sera pas forcément demain. Et si le modèle de données change…
  • Mise à disposition et exposition de modèles dans une application pour utilisateurs finaux.

Pour tirer tous les bénéfices des approches combinées DevOps et DataOps, il est important de disposer d’un relai technologique fondamental, un orchestrateur de technologies.

Cet orchestrateur vous aide à :

  • Gérer des données de leur extraction jusqu’à leur consommation, en passant par leur traitement
  • Faciliter et accélérer la mise en production des projets Data & Analytics. Toutes les technologies y sont assemblées pour offrir une adaptabilité complète en supportant les dernières versions (R, Python, HDFS, Impala, Hive, Drill, Spark, Sqoop, Elasticsearch, PostgreSQL, Talend, Java, Scala, Jupyter, Docker, Mongo DB et MySQL) ;
  • Améliorer la collaboration et la communication au sein de votre entreprise. Tous les acteurs (Data Engineer, Data Scientists, Data Analysts, Data Stewards, IT/Ops) sont réunis au même endroit et peuvent y accéder facilement, et collaborer ensemble.

Le DataOps est un nouveau concept émergeant. Il n’y a donc pas encore de cadres ou de normes déterminés. On constate qu’en réalisant des projets plus rapidement en mode agile, le DataOps permet de mettre en production vos projets orientés données. En intégrant en toute sécurité et transparence les meilleures technologies open source ou commerciales du paysage Big Data / IA, Saagie ne présente à ce jour aucun concurrent direct sérieusement identifié, mais apparaît au contraire comme le premier orchestrateur transversal conçu pour mettre en œuvre une approche DataOps en tirant parti de l’expertise d’un vaste ensemble de partenaires technologiques.

 

Pouvons-nous utiliser des cookies ?

Nous utilisons sur notre site des cookies. Vous pourrez trouver des explications ci-dessous. Afin d'être conforme avec la nouvelle réglementation en vigueur dans le cadre de la RGPD, merci de cliquer sur "Accepter". Après avoir cliqué, vous ne verrez plus ce message.

En savoir plus sur les traceurs