Qu’est ce que la Data Science ?

La Data Science ou science de la donnée, permet de collecter, nettoyer, analyser et tirer parti de données afin d’en dégager des tendances ou enseignements.

Définition

La data science est à la croisée des chemins entre la technique, les sciences dites pures (mathématiques, physique…) et l’informatique (développement). En data science on utilisera les mathématiques et plus précisément les statistiques pour réaliser des modèles probabilistes ou de l’apprentissage statistique. Au-delà de fortes notions en mathématiques, une couche de programmation informatique (généralement en R ou Python) et d’ingénierie des données sont indispensables. L’ensemble de ces connaissances permettent de réaliser des projets autour de la détection de forme et l’apprentissage (Machine Learning), la modélisation d’incertitude notamment dans les cas de signaux faibles, de la compression de données etc…

La data science est une discipline très récente et est en plein développement depuis ces dernières années. La raison ? L’augmentation des volumes de données stockés par les entreprises, les données publiques et la possibilité technique de traiter efficacement ces données avec des langages de programmation qui permettent de dégager de la valeur des jeux de données (datasets).

Les enjeux et objectifs de la Data Science

L’objectif du data scientist est d’explorer, de trier et d’analyser des mégadonnées de sources diverses afin d’en tirer parti et d’arriver à des conclusions pour optimiser les processus métiers ou pour l’aide à la prise de décision. On retrouvera par exemple la maintenance des machines ou (maintenance prédictive), dans les domaines du marketing et de la vente avec de la prédiction des ventes en fonction de la météo par exemple. Les cas d’usages sont quasiment infinis…

Les piliers sur lesquels le data scientist s’appuie le plus souvent sont le data mining (exploration de la donnée), les statistiques, le machine learning, les algorithmes de recherche (random forest, arbre de décision, régression, réseau de neurone…), la visualisation des données (Dataviz) avec des outils tel que Matlo, Qlik… La data science est donc en train de révolutionner le traitement des données des entreprises ou données publiques qui jusque-là étaient difficilement exploitables avec les technologies classiques (dites structurées). La concomitance entre l’accroissement fulgurant des bases de données, de l’émergence de nouvelles technologies autour du machine learning, de l’intelligence artificielle et du Big Data permettent désormais de réaliser de l’analyse de donnée semi-structurée.

On parle beaucoup de Data science lorsqu’on évoque le Big Data, mais elle ne se limite pas uniquement aux ensembles massifs de données. Chez Saagie par exemple, nous pensons qu’il est préférable de parler de Smart Data : il est possible de tirer parti de la donnée quelle que soit sa taille.

On retrouvera une forte appétence pour la data science dans les domaines tels que :

  • Industrie :
    • Maintenance prédictive
  • Les banques et assurances avec :
    • Automatisation des processus
    • La connaissance client
    • La réduction du taux d’attrition
  • Santé :
    • Epidémiologie
    • Toxicologie
    • Recherches
  • Retail :
  • Environnements
    • Modélisation des phénomènes climatiques
    • Projection de l’impact
  • Transport & villes :
    • Villes intelligentes (smart cities)
    • Optimisation des transports en fonction des flux voyageurs

Les cas d’usage ne manquent pas ! La principale difficulté de la data science est son aspect très largement pluridisciplinaire à la croisée entre les sciences classiques, les logicielles et langages de programmation, la sécurité des données…



Pouvons-nous utiliser des cookies ?

Nous utilisons sur notre site des cookies. Vous pourrez trouver des explications ci-dessous. Afin d'être conforme avec la nouvelle réglementation en vigueur dans le cadre de la RGPD, merci de cliquer sur "Accepter". Après avoir cliqué, vous ne verrez plus ce message.

En savoir plus sur les traceurs