5 erreurs qui empêchent les projets du Data Lab de passer en production

mars 2, 2023
Processus

Toujours pour vous accompagner dans la réussite de votre projet Big Data/Intelligence artificielle, voici notre quatrième article sur le sujet.

Si vous nous suivez depuis le début, vous savez désormais monter un Data Lab, parfois orthographié Datalab, vous connaissez tout des pièges du POC, et comprenez l’importance de mettre la vision métier au cœur de son projet.

Il est donc temps de s’intéresser aux erreurs qui empêchent un projet du Data Lab de passer en production dans une entreprise.

Erreur n° 1 - Vouloir tout faire soi-même dans ses projets du Data Lab

L’entreprise Uber, afin notamment de pouvoir lancer son offre Uber Eats, a mis près de 18 mois à développer sa plateforme Data & Analytics. Cela montre que, même pour une grande entreprise de la Silicon Valley, la création de bout en bout de sa propre plateforme de gestion de projets reste longue et complexe.

En data science, les technologies nécessaires sont difficiles à assembler, car disparates, le travail de mise en place et de maintenance est donc important.

Le risque majeur pour une petite entreprise est donc d’avoir un ROI très tardivement (en effet, on ne peut adresser un cas d’usage tant qu’elle n’est pas en place), ce qui peut mettre en péril le projet data.

Erreur n° 2 - Fonctionner en mode Shadow IT dans un projet du Data Lab

C’est l’un des problèmes les plus récurrents. Ce que l’on appelle « shadow IT », c’est le fait de monter un projet big data/intelligence artificielle sans consulter au préalable le service informatique. Ce dernier n’est donc ni informé, ni impliqué, et finit souvent par bloquer la mise en production.

En effet, les solutions choisies ne correspondent pas toujours aux critères du service informatique en matière de qualité d’infrastructure ou de sécurité informatique, et les projets s’arrêtent donc au pied de la mise en production.

Il faut par conséquent inclure le service informatique de votre entreprise dès le début dans la gestion de vos projets data.

Erreur n° 3 - « Bunkeriser » son Data Lake dans son projet du Data Lab

Avec les nouvelles réglementations comme celle du RGPD, les entreprises sont maintenant très prudentes lorsqu’il s’agit de données numériques, notamment personnelles, sur les clients par exemple, ce qui est rassurant pour les consommateurs, mais peut être un frein à un projet data science.

Les lacs de données, de plus en plus fermés (restriction des accès, contraintes liées à la protection des données personnelles…) pour toujours assurer une meilleure sécurité, ne laissent plus passer grand-chose. Moins de données entrantes, moins de données sortantes, et donc moins de cas d’usage mis en place. Et évidemment, aucune initiative autour de la data science n’est envisageable sans tout cela.

Erreur n° 4 - Manquer de collaboration dans ses projets du Data Lab

Comme évoqué précédemment avec le cas précis du « shadow IT », il n’est pas rare que les équipes manquent de coordination dans leur travail. Cela se constate régulièrement entre l’équipe informatique et les équipes en charge du DataLab.

Il faut se rendre compte que les profils engagés viennent de cultures différentes, ne travaillent pas sur les mêmes outils et pas de la même manière.

En effet, leurs stratégie, gestion et approche sont même opposées : l’équipe de Data Science va favoriser la gestion de projets Agile avec les métiers ou les équipes marketing, l’utilisation de nouvelles applications numériques et le test & learn, quand l’équipe informatique se base sur des standards et processus plus stricts pour des questions, notamment, de sécurité informatique sur l’environnement de production.

Dans certains cas, cela peut même amener des développeurs à réécrire complètement le code des data scientists, ce qui, à nouveau, constitue une énorme perte de temps.

Erreur n°5 - Suivre des approches artisanales dans ses projets du Data Lab

De l’expérimentation à la véritable mise en place sur l’environnement de production, les techniques et solutions diffèrent. On distingue ainsi les technologies numériques dites de Data Science, et les technologies largement utilisées lors de la mise en production.

Par exemple, en langage Python, il existe des bibliothèques de modélisation très avancées (comme la bibliothèque Scikit-Learn) que l’on ne retrouve pas dans une technologie comme Java.

Ainsi, cela complique :

Voici cinq des principales erreurs dans la gestion des projets data et la mise en place d’un Data Lab, qui font que la majorité des applications big data/intelligence artificielle n’atteint pas la mise en production.

Si vous voulez découvrir comment nos clients ont pu éviter ces différents pièges avec notre plateforme DataOps, n’hésitez pas à la tester gratuitement !