Comment analyser et modéliser des données Big Data avec Power Pivot ?

En Data Science ou en Big Data, on est amené à définir un modèle de données complexe, à créer des tableaux croisés dynamiques, des graphiques croisés dynamiques, et à effectuer des requêtes pour l’analyse des données. L’objectif est de filtrer et d’analyser les données en fonction du besoin business. Pour cela, on utilise des outils, […]

Loi normale Python ou loi de Gauss, comment modélisez-vous vos données?

En Data Science et en probabilités, on est amené à modéliser un grand nombre de données ou un échantillon de valeurs, aléatoires (random en anglais) ou non. Pour cela, plusieurs études sont possibles : le calcul de la moyenne (mean en anglais), de la médiane (median en anglais), de la variance ou de l’écart-type, en […]

La conteneurisation, le standard en DevOps et en DataOps

La mise en place de conteneurs dans le développement des applications, notamment avec l’utilisation d’outils comme Docker et Kubernetes, est aujourd’hui un standard en DevOps et en DataOps.  La conteneurisation informatique permet de s’affranchir de la virtualisation du système d’exploitation que l’on trouve dans les machines virtuelles, en utilisant par exemple Linux Container LXC, ce […]

Data : tour d’horizon des technologies populaires en 2022

L’analyse de données et le Big Data sont des outils de plus en plus utilisés par les entreprises pour obtenir des informations, pour aider les projets marketing et trouver des solutions aux besoins des clients. (Vous trouvez l’illustration Kitsch ? Nous aussi ! ) 1. Projets data : quelles sont les technologies phares ? Les […]

Découvrez Kibana, le module de visualisation d’Elastic

De nouvelles technologies de stockage sont apparues au cours des deux dernières décennies pour mieux répondre aux problématiques liées à l’analyse de données et au big data. L’une de ces technologies est la suite Elastic, composée de différents modules, notamment ElasticSearch et Kibana, qui est l’interface qui va nous intéresser dans cet article. Tandis qu’Elasticsearch […]

Comment évaluer, choisir et gérer vos modèles de machine learning ?

Le machine learning (ML) est un domaine de la science des données pouvant aboutir à des résultats intéressants et inatteignables autrement. La méthode consiste à partir d’un algorithme générique que l’on va « entraîner » sur un massif de données. À l’issue de cet entraînement, les paramètres de cet algorithme sont alors spécifiques à ces données.  Cette […]

Écrire du code de qualité est essentiel en data

Data science et développement informatique sont deux domaines très proches l’un de l’autre. En particulier, la data emprunte beaucoup au développement, qu’il est utile de maîtriser pour être un spécialiste data accompli. En effet, plusieurs logiciels permettant de faire de l’analyse de données via une interface graphique existent et se sont développés ces dernières années […]

ETL et ELT, de quoi s’agit-il ? Quelle est la différence ?

Alors que les entreprises font de plus en plus appel à l’analyse de données, les besoins pour des processus efficaces de traitement des données vont crescendo.  Les ETL et ELT sont justement deux outils répondant à ces besoins. ETL est l’acronyme de « Extract Transform Load », tandis que ELT signifie « Extract Load Transform ».  Bien qu’ils aient […]

Data Science : quel outil d’intégration continue choisir ?

L’organisation d’une équipe de Data Science est très complexe. En plus du facteur humain, il faut prendre en compte l’organisation technique. Pour coordonner ce type d’équipe, le paradigme DevOps propose un ensemble d’outils d’intégration continue essentiels ainsi qu’une chaîne de traitement pour réunir dans une seule équipe plusieurs profils qui étaient isolés auparavant. Ceci dit, […]

Dash : l’outil idéal pour développer une web App avec Python

Lorsque vous analysez des données, il est courant de devoir présenter vos résultats à vos collègues ou à vos clients, notamment via des visualisations. Cependant, si vous souhaitez présenter un algorithme ou rendre vos visualisations interactives, un diaporama ne sera pas suffisant… Alors, une option courante est de créer une application web (web App) intégrant […]

DataOps : les spécificités du code en machine learning

Le domaine de l’analyse des données est devenu un eldorado et une opportunité de développement pour beaucoup d’entreprises. En particulier, la data a apporté des solutions techniques à des problèmes jusqu’ici insolubles sans une forte intervention manuelle (et donc souvent coûteuse). Il existe des cas d’applications dans de nombreux secteurs : financier, assurance, imagerie satellite, recherche […]

Conteneuriser une API en DataOps : un guide pour démarrer

La conteneurisation (containerisation en anglais) consiste à regrouper dans une même entité tous les éléments nécessaires au fonctionnement d’une application : le code, les fichiers de configuration, l’environnement d’exécution… Ainsi, cette entité est l’élément unique et nécessaire pour déployer une application. C’est donc un concept clé en dataops, en particulier pour mettre en œuvre le principe […]