Découvrez notre nouveau livre blanc - IA Générative : Le Pouvoir des Données

logo saagie red
illustration blog pratique devops projet big data

Comment amener les pratiques DevOps à vos projets Big Data ?

Suite et fin de notre chronique consacrée à la réussite de vos projets Big Data / IA. Vous connaissez désormais tous les éléments clés menant au succès: la constitution du Data Lab, la Plateforme DataOps, l’importance d’intégrer la vision métier, dès le POC, ainsi que les pièges à éviter, il ne manque plus que la touche finale : l’application de l’approche DevOps. Né au début des années 2000, il s’agit d’un ensemble de pratiques informatiques qui, aujourd’hui, se généralisent.

Les pratiques DevOps

Basée sur les principes Lean et Agile, l’approche DevOps rassemble responsables opérationnels et développeurs. On parle de « dev » pour tout ce qui se rattache au développement d’un logiciel, d' »ops » pour l’administration de son infrastructure. Les pratiques DevOps visent à unifier l’ensemble. 

En pratique, il s’agit de l’automation et du suivi de chacune des étapes de la création d’un logiciel, de son développement à son déploiement, mais aussi de son administration. On associe couramment DevOps à agilité qui favorise les cycles courts, l’itération ou encore des déploiements plus fréquents. 

L’objectif de cette démarche est de délivrer un logiciel en continu et donc modifiable, qui permet à la fois de prendre en compte les retours clients, mais aussi de saisir plus d’opportunités commerciales. Les principaux avantages de ces pratiques sont aussi la collaboration de différentes équipes qui amène à un déploiement accéléré et donc à des coûts réduits.

Embrace DataOps

Les pratiques DevOps restent donc liées à l’informatique mais les nouvelles considérations liées aux données ont amené avec elles le besoin d’en élargir les frontières. Puisque ces pratiques permettent une boucle de feedbacks et davantage d’itérations, il s’est donc avéré nécessaire de l’adapter au développement d’applications de traitement de données. 

Motivé par la croissance du Machine Learning et de la Data Science en général et le développement des équipes qui a suivi, ce besoin demande donc une collaboration étroite entre Data ScientistsData Engineers mais aussi développeurs logiciels ou tout autre profil impliqué. Nous assistons donc à un déclin du modèle CRISP au profit du développement du DevOps dans la Data Science.

 S’il s’agissait donc seulement au début d’un ensemble de best practices, c’est maintenant une véritable approche qui s’applique dans les équipes Data & Analytics et qu’on appelle le DataOps. Ce concept suit la même logique que celui des pratiques DevOps, mais adapté à la data et s’appliquant tout au long des étapes du cycle de la donnée.

Les différentes étapes pour y arriver

Chez Saagie, nous intervenons sur toute la partie Ops, la partie la plus complexe de la boucle. Elle comprend quatre étapes principales ainsi qu’une étape présente tout au long du cycle de la donnée :

Release & Deploy : ces étapes étant complémentaires, nous les présentons ensemble. Pour faire simple, la release est la sortie d’une première version stable après compilation du code. Deploy consiste donc à son déploiement, sa mise en production.

Operate : cette étape consiste à orchestrer (les batch notamment), superviser l’état de l’ensemble des traitements, contrôler l’état et les versions des différents frameworks de traitement et diagnostiquer les problèmes de production.

Monitor : Il s’agit d’un travail de surveillance et de veille continue. Dans le monde de la donnée, cela consiste à mesurer les effets du traitement et de ses versions ultérieures sur le cas d’usage. Pour résumer, est-ce que les améliorations apportées sur mon cas d’usage / traitement ont eu un impact sur mon business ?

Iterate : Les méthodes de type cycle en V, partiellement CRISP, ne sont pas optimisées pour avoir une boucle de retours courte sur le besoin métier. Itérer implique de proposer une nouvelle version de son projet data en minimisant le délai entre 2 itérations (passer de mois en semaines, de semaines en jours, de jours en heures).

Plus de la moitié des entreprises françaises qui ont intégré des pratiques DevOps dans un projet les ont par la suite généralisées à l’ensemble de leurs développements informatiques selon IDC. Ces pratiques continuent donc de s’imposer et selon les prédictions de Gartner, parmi les 1 000 premières entreprises du célèbre magazine Fortune, 80% les auront adoptées d’ici l’année prochaine. Mais si leur généralisation ne fait maintenant plus de doute, qu’en est-il du DataOps ? Toujours selon Gartner, adopter cette approche est l’une des seules solutions pour amener vos projets en production.

Découvrez le DataOps résumé en 5 questions !