Quelles seront les nouvelles problématiques data en 2020 ?

Cover

Quelles seront les nouvelles problématiques data en 2020 ?

Share on twitter
Share on linkedin
Share on pinterest
Share on reddit
Share on pocket
Share on email

Comment décrypter les tendances technologiques et informatiques qui vous attendent en 2020 dans le domaine de la data science ? Les défis data arriveront avec des nouvelles problématiques business qui seront abordées avec certaines technologies. Parmi ces dernières certaines seront déjà connues, et continueront à grandir. D’autres viendront s’implanter et devenir des références dans le cadre de nouveaux services innovants. Une chose est sûre, l’avenir est prometteur pour les data scientists !

Croissance des technologies cloud

Vous l’avez compris, le cloud devient indispensable dans le développement de projets data. Les applications sont de plus en plus développées sur Azure, AWS ou Google Cloud (SaaS). Les entreprises devront avoir à minima l’infrastructure développée sur le Cloud (IAAS), cela devient aussi important qu’une simple connexion à internet. La clé de cette architecture sera toujours basée sur les microservices, à travers les conteneurs Dockers ainsi que l’orchestrateur Kubernetes.

De plus, nous pourrons accueillir un nouvel acteur dans l’écosystème Big Data sur le cloud : MinIO. Il s’agit d’un cloud storage compatible avec Amazon S3, développé par Apache. MinIO peut être une alternative pour les entreprises, car il est open source et est créé spécialement pour les entreprises et le cloud privé. Microsoft l’a déjà incorporé à son Azure Marketplace.

Arrivée de la 5G

Les réseaux 5G sont déjà parmi nous, même si l’offre est encore limitée. L’adaptation sera lente, mais les différences en terme de vitesse dans l’envoi et la réception de données, la quantité de dispositifs connectés de manière simultanée, ainsi que la baisse de consommation énergétique, feront que la demande de streaming augmente, ainsi que la disponibilité des données en temps réel. Ceci aidera à améliorer le traitement de données, la biométrie, l’IoT, et le développement des smart cities.

Maturité de Blockchain

Blockchain est plus qu’une technologie. Il s’agit plutôt d’un changement de paradigme concernant le partage de données sur internet. Elle est née il y a quelques temps mais cette année elle arrivera à un état de maturité qui permettra de commencer à voir quelques impacts au niveau professionnel. Selon Gartner, Blockchain sera complètement opérationnel en 2023.

Au-delà de l’application aux cryptomonnaies, la technologie Blockchain aura des nombreuses applications : création de contrats professionnels en ligne en totale sécurité, le commerce électronique, les autorisations pour l’accès à des données sensibles, l’échange de données entre gouvernements, la réalisation de certificats électroniques et signatures en ligne, etc.

Machine learning : AutoML

Il s’agit d’un niveau d’abstraction plus élevé, dans lequel l’utilisateur devra uniquement fournir une métaconnaissance (une description du problème) et l’algorithme sélectionnera lui-même les bonnes données, optimisera la structure et la configuration du modèle, lancera l’apprentissage, et l’adaptera à plusieurs dispositifs.

Avec ce type d’approche, les applications d’IA seront encore plus vulgarisées et utilisées dans un contexte professionnel par des non-professionnels de l’IA (intelligence artificielle).

Machine Learning : Transfer Learning

Dans le même sens que AutoML, le Transfer Learning ou « apprentissage par transfert » est un type d’apprentissage profond qui utilise des modèles déjà entraînés au préalable pour des problématiques sensiblement différentes. Ceux-ci seront modifiés afin de les rendre tout aussi efficaces pour le nouvel objectif souhaité.

Prenons par exemple un réseau de neurones qui a été entraîné pour classifier un certain type de panneau de circulation. Utilisant la même structure (nombre de couches neuronales, le poids de chaque connexion entre neurones) le Transfer Learning permet de transférer la connaissance de l’ancien panneau vers le nouveau.

Le Transfer Learning peut être utile dans un contexte où les données sont trop restreintes.

Adoptez une stratégie MLOps

Vous connaissez DataOpsDevOps… mais peut-être que le mot MLOps vous est encore inconnu. De quoi s’agit-il ? C’est un ensemble de bonnes pratiques, lors du développement de modèles de Machine Learning, qui ont pour but de les implanter rapidement et facilement en production. C’est une méthodologie professionnelle, qui n’est pas adaptée au développement de modèles de recherche scientifique.

D’un point de vue général, les bonnes pratiques s’appliquent à 4 étapes du développement :

  • Gestion des données,
  • Développement de modèles,
  • Robustesse de l’implémentation en production,
  • Suivi des modèles en production.

Dans un article publié par Google, (The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction) vous pouvez trouver des consignes plus précises afin de mettre en place cette méthodologie dans votre équipe. Il s’agit de plusieurs tests de robustesse à réaliser pendant le cycle de vie du projet. Pour vous aider à appliquer le MLOps, vous pourrez utiliser l’outil MLflow pour le développement de modèles de Machine Learning robustes respectant les principes du MLOPs.

Nouvelles réglementations

La RGPD a sans doute changé la manière d’utiliser les données à toutes les échelles. À partir de 2020, nous verrons émerger des nouvelles réglementations en terme d’éthique, de transparence et de traçabilité des données. Il s’agira d’aller au-delà de la RGPD pour établir un vrai contexte légal qui amène une meilleure confiance des utilisateurs (notamment après les nombreux problèmes de compagnies comme Facebook), une meilleure relation entre clients et surtout une gestion de données plus transparente.