Qu’est-ce que la Data Science ?

avril 28, 2021
Data Basics

Data science, généralement traduit par « science des données » (mais le plus souvent employé en anglais), est un terme qui a commencé à se répandre à la fin des années 90. Il s’agit d’un domaine regroupant un ensemble de disciplines relatives à la collecte, la gestion et l’analyse des données.

On pourrait parler en quelque sorte d’un nouveau paradigme pour penser le monde de l’information d’un point de vue technique, suite à l’amélioration des technologies et à la prolifération des données disponibles.

Contrairement à ce que l’on pourrait penser, les méthodes appliquées en data science ne sont pas toutes nouvelles et innovantes : certaines ont été créées bien avant les années 2000 ; cependant, le verrou technique était trop important à l’époque pour que ces méthodes révèlent leur plein potentiel.

La data science se trouve donc à l’intersection de différents domaines, notamment les mathématiques, l’informatique et l’expertise business. Sur le terrain, cela prend plusieurs formes que nous allons brièvement détailler ici.

Data science et intelligence artificielle

L’IA (ou intelligence artificielle) est sûrement l’un des aspects les plus médiatisés de la data science, celui qui fait les gros titres. Les algorithmes sont de plus en plus performants et surpassent parfois les êtres humains – on se souvient par exemple de AlphaGo.

Le mythe de l’intelligence artificielle est-il déchu ?

L’IA génère beaucoup de fantasmes, c’est d’ailleurs l’un des thèmes de prédilection en SF.

À ce jour cependant, parler d’intelligence au sens humain du terme est probablement exagéré puisqu’on est encore loin d’obtenir une machine capable d’imiter un esprit humain. En revanche, sur des tâches spécialisées, les progrès ont été spectaculaires ces 15 dernières années.

Qu’est-ce que le natural language processing (NLP) ?

Un domaine très en vogue en IA est le NLP pour natural language processing, soit l’analyse du langage.

On retrouve un tas d’applications telles que la traduction automatique, la classification de textes, la reconnaissance vocale… C’est ce qui est à la base des assistants vocaux/virtuels tels que Siri ou Alexa, ou encore des bots automatisés.

Machine learning, deep learning : quelles différences en data science ?

L’expression « intelligence artificielle » désigne surtout un concept, sans autres précisions techniques sur comment y arriver. D’ailleurs, certaines techniques d’optimisation, par exemple, étaient considérées comme de l’IA il y a 30 ou 40 ans, mais ne le sont plus aujourd’hui.
Si l’on s’intéresse aux techniques employées aujourd’hui en IA, on retrouve le plus souvent du machine learning et/ou du deep learning.

Qu’est-ce que le deep learning et comment ça marche ?

Le deep learning est une catégorie d’algorithmes de machine learning qui s’inspirent du cerveau (c’est pourquoi on les appelle aussi « réseaux de neurones ») et qui ont montré des résultats spectaculaires sur des tâches complexes telles que l’analyse d’images ou le NLP cité plus haut.

Plus précisément, le terme deep signale le fait que le réseau de neurones est constitué de plusieurs couches connectées en cascade, d’où cette idée de profondeur.

Le machine learning expliqué à ma grand-mère

Le machine learning s’appuie sur des algorithmes génériques, dont la particularité est de se régler en fonction du cas d’application. En quelque sorte, c’est comme si on fournissait à un ordinateur une feuille blanche et des données pour qu’il prenne lui-même des notes sur les corrélations qu’il observe au sein de ces données (sans intervention humaine).

Donc en réalité, le deep learning représente une sous-catégorie d’algorithmes de machine learning.

MLOps, le machine learning en production

La data science est un domaine définitivement orienté vers le business. Or, intégrer toutes ces nouvelles techniques, toute cette complexité au sein d’une entreprise est un vrai défi.

Par conséquent, un aspect supplémentaire de la data science est l’ensemble des méthodes et pratiques informatiques qui ont été développées dans le but d’intégrer des projets data en entreprise.

Le MLOps, ainsi que le DataOps, sont justement des approches (combinant à la fois des méthodes, des process, des outils et une organisation des équipes) visant à faciliter chaque étape d’un projet data.

Les technologies big data, composante essentielle de la data science

La révolution de l’information liée à la démocratisation d’internet, mais aussi à la chute des coûts de stockage, est à l’origine d’une augmentation exponentielle des quantités de données disponibles.

Toutes ces données collectées sont le carburant de la data science. Donc logiquement, on retrouve en data science toutes les problématiques liées à la collecte et à la gestion des données. Là encore, on retrouve toute une terminologie dédiée telle que le datamining, le data crunching, le big data…

Qu’est-ce que l’open data ?

Il est intéressant de remarquer que la majorité des algorithmes, même conçus par des entreprises privées, sont open source. En revanche, les données sont souvent jalousement gardées !

Cependant, de plus en plus d’initiatives militent en faveur de « l’open data », un équivalent de l’open source pour les données. Cela consiste à rendre publiquement consultables des données, notamment celles d’institutions publiques (via le site data.gouv par exemple).

Qu’est-ce que le data mining ?

La majorité des données disponibles sont dispersées, non formatées, parfois incomplètes ou erronées.

Le data mining est une discipline dont l’objectif est de collecter toutes ces données, de les nettoyer, de les formater…, donc de les rendre les plus disponibles et standard possibles pour pouvoir les exploiter.

Saagie & la Data Science

Saagie joue un rôle crucial dans le domaine des Data Sciences en offrant une plateforme complète et intégrée pour la gestion, l’exploration, l’analyse et le déploiement des données. Un pôle en interne est dédié à l’innovation et à la Data Science : le AI Data Lab

Les Data Sciences sont une discipline qui englobe la collecte, le traitement, l’analyse et l’interprétation des données afin d’extraire des connaissances et des informations exploitables. Cette discipline repose sur l’utilisation de méthodes statistiques, d’algorithmes avancés et de technologies de pointe pour résoudre des problèmes complexes et prendre des décisions éclairées. Saagie réponds aux besoins et demandes de la Data Science.

La plateforme DataOps Saagie simplifie et accélère le travail des Data Scientists en leur fournissant un environnement puissant et évolutif. Elle leur permet de gérer facilement les données à grande échelle, de les explorer en profondeur, de les nettoyer et de les préparer pour l’analyse. Saagie propose également une gamme d’outils et de bibliothèques intégrées pour l’analyse statistique, l’apprentissage automatique (machine learning) et la visualisation des données.

La data science est un domaine très dynamique, en constant changement et à la croisée de plusieurs autres domaines, il n’est donc pas évident de définir clairement où commence et où s’arrête la data science. Pour cela de nombreuses formations permettent une montée en compétence régulière

L’objectif de cet article était donc de vous donner un aperçu de la diversité des problématiques auxquelles on peut faire face lorsque l’on travaille de près ou de loin dans ce domaine.