Testez Saagie en quelques clics grâce à notre démo interactive !

4 Bonnes Pratiques à Adopter dans un Projet Data Science

Développer des projets de Data Science est un grand pas, avec de nombreuses nouveautés. Il faudra adopter les bonnes pratiques dès le début pour ne pas se retrouver piéger. Il y a les challenges technologiques bien sûr, mais il faut aussi prendre en compte les aspects humain et organisationnel. 

Aujourd’hui, nous allons partager avec vous nos best practices afin de vous préparer au mieux à l’aventure d’un projet de Data Science. 

Ces conseils vous permettront d’avancer plus rapidement, sans avoir à sans cesse revenir en arrière afin de réparer vos erreurs ; Mark Twain a dit : “Une habitude est une habitude, dont aucun homme ne peut se débarrasser si facilement ; elle doit être amadouée, lentement, pas à pas.” 

Plutôt que d’essayer de changer les habitudes, nous pensons qu’il est préférable de bien apprendre dès le début. Pour faire court, avoir de bonnes bases est essentielle. Voici donc 4 pratiques à appliquer à n’importe quel scenario impliquant du Machine Learning.

Si vous êtes intéressé par le Dataops et souhaitez découvrir son utilisation et ses technicités, cet article est fait pour vous ! 

#1 - Capitaliser sur son code

Penser, avant même sa conception, à la manière dont votre code pourrait être réutilisé. Votre premier essai à un projet de Data Science vous permettra de tester différentes méthodes et approches et de choisir les plus performantes et adaptées à la mise en production. Dès que possible, pensez à capitaliser sur les morceaux de code (snippets) qui pourront vous servir dans d’autres situations similaires. pour cela, pensez le projet en modules ou composants, plutôt que de façon linéaire.

Brique par brique, vous vous constiturez une librairie de code à réutiliser pour d’autres cas d’usage, mais aussi à partager à l’ensemble de l’entreprise. De l’exploration à la production. Les architectures d’exploration doivent être en accord avec celles de production (compatibilité entre technologies : languages, frameworks..). Il vaut mieux opter pour des technologies qui peuvent facilement passer d’un environnement à l’autre.

Le but est de “faire” de la Data Science moderne mais qui s’intègrera naturellement à votre architecture IT existante. De cette manière, le coût de production de vos projets pourra être réduit de manière significative. Faîtes en sorte que votre choix de technologies ne soit pas une contrainte à votre déploiement : choisissez vos outils intelligemment.

#2 - Intégrer les bonnes pratiques de développement logiciel

Pensez la manière dont va être intégré (exposé) votre modèle. Le plus tôt sera le mieux. Lorsque vous créez un modèle de Machine Learning, il est facile d’oublier qu’il ne s’agit que d’écrire des lignes de codes. Les pratiques utilisées dans le domaine de la programmation comme le développement continu, l’intégration continue, le test unitaire, le monitoring, le clean coding ou d’autres renderont votre code plus facile à maintenir. 

#3 - Développer des modèles de machine learning "code-driven"

Mettre en production un algorithme de Machine Learning peut vous apprendre beaucoup sur l’algorithme lui-même et la manière dont il fonctionne. Comme dans de nombreux domaines, plus on pratique, meilleur l’on devient. C’est aussi applicable à la mise en production de modèles. La répétition vous aidera à mettre en place vos propres habitudes en fonction de la manière dont vous travaillez le mieux. Mais comme tout, cette approche a aussi ses inconvénients :

  • la redondance : de nombreux algorithmes sont déjà en production, certains sont robustes, d’autres ont déjà été utilisés par des milliers de chercheurs à travers le monde. Attention de ne pas perdre du temps à créer quelque chose qui existe et fonctionne déjà.
  • les bugs : un code nouveau avec peu d’utilisateurs a plus de chances de comporter des bugs, malgré les nombreux tests ou les compétences de son développeur. L’utilisation d’une librairie standard réduit la probabilité de bugs durant la mise en production de l’algorithme.  

Il existe de nombreux algorithmes déjà implémentés que vous pouvez étudier et réutiliser. Il est plus avantageux de commencer par des algorithmes standards avant de vouloir les rendre plus efficaces mais potentiellement plus difficilement intégrables.  

#4 - Optez pour l'open source

L’open source est désormais courant et largement utilisé dans les grandes entreprises. En plus de permettre un développement simplifié, plus rapide et de meilleure qualité, cela facilite la coopération inter-équipes (et dans l’ensemble de l’entreprise).

L’open source est plus qu’un compte sur GitHub ; c’est une culture. Correctement utilisé et compris, il peut apporter son lot de bénéfices à votre entreprise :

  • une meilleure collaboration
  • un nouveau moyen d’impliquer les équipes (identification de bugs, correction)
  • cela favorise l’accès à des outils adaptés aux besoins de chacun 

Pour exemple, le choix de Paypal vers l’InnerSource a conduit à une série de décisions qui ont finalement mené à un changement dans le choix des outils et, plus largement, à un bouleversement culturel de l’entreprise.

L’adoption de ses 4 pratiques représente selon nous, une bonne base sur lequel vous appuyez pour démarrer un projet de Data Science dans les meilleures conditions.