Gestionnaire de base de données : comment choisir ?

Avec le monde numérique en plein développement, de plus en plus d’entreprises cherchent à tirer un meilleur parti de leurs données. Face aux options coûteuses disponibles sur le marché, comment choisir le meilleur gestionnaire de base de données pour votre activité ?  Dans cet article, nous découvrirons les différents systèmes de gestion existants sur le marché, […]

À quoi sert un data hub dans la mise en place d’un projet data?

La gestion efficace des données est devenue un enjeu crucial pour les entreprises de tous les secteurs. Cependant, en big data, elle peut être complexe et nécessite souvent l’intervention de plusieurs équipes et de différents systèmes informatiques. C’est là que le data hub entre en jeu. 1. Qu’est-ce qu’un data hub ? A. Définition d’un […]

Le data cleaning, comment obtenir un traitement de qualité des données

Le nettoyage des données d’une entreprise (data cleaning) n’est peut-être pas la partie la plus appréciée de la data science, mais c’est certainement l’une des plus importantes : sans données propres, il est impossible d’entreprendre quoi que ce soit. En effet, si les données en entrée d’un modèle ou d’une analyse ne sont pas de bonne […]

Comment analyser et modéliser des données Big Data avec Power Pivot ?

En Data Science ou en Big Data, on est amené à définir un modèle de données complexe, à créer des tableaux croisés dynamiques, des graphiques croisés dynamiques, et à effectuer des requêtes pour l’analyse des données. L’objectif est de filtrer et d’analyser les données en fonction du besoin business. Pour cela, on utilise des outils, […]

Loi normale Python ou loi de Gauss, comment modélisez-vous vos données?

En Data Science et en probabilités, on est amené à modéliser un grand nombre de données ou un échantillon de valeurs, aléatoires (random en anglais) ou non. Pour cela, plusieurs études sont possibles : le calcul de la moyenne (mean en anglais), de la médiane (median en anglais), de la variance ou de l’écart-type, en […]

Le CI/CD en DataOps : le développement continu et la mise en place de pipeline

Les données sont de plus en plus présentes dans les entreprises et on voit émerger les projets Big Data. D’autre part, on observe une diminution du temps de développement. La livraison en production et le déploiement doivent être réalisés rapidement et fréquemment par les équipes de développement et les équipes data pour faire face aux besoins.  […]

La conteneurisation, le standard en DevOps et en DataOps

La mise en place de conteneurs dans le développement des applications, notamment avec l’utilisation d’outils comme Docker et Kubernetes, est aujourd’hui un standard en DevOps et en DataOps.  La conteneurisation informatique permet de s’affranchir de la virtualisation du système d’exploitation que l’on trouve dans les machines virtuelles, en utilisant par exemple Linux Container LXC, ce […]

Data : tour d’horizon des technologies populaires en 2022

L’analyse de données et le Big Data sont des outils de plus en plus utilisés par les entreprises pour obtenir des informations, pour aider les projets marketing et trouver des solutions aux besoins des clients. (Vous trouvez l’illustration Kitsch ? Nous aussi ! ) 1. Projets data : quelles sont les technologies phares ? Les […]

Découvrez Kibana, le module de visualisation d’Elastic

De nouvelles technologies de stockage sont apparues au cours des deux dernières décennies pour mieux répondre aux problématiques liées à l’analyse de données et au big data. L’une de ces technologies est la suite Elastic, composée de différents modules, notamment ElasticSearch et Kibana, qui est l’interface qui va nous intéresser dans cet article. Tandis qu’Elasticsearch […]

Comment évaluer, choisir et gérer vos modèles de machine learning ?

Le machine learning (ML) est un domaine de la science des données pouvant aboutir à des résultats intéressants et inatteignables autrement. La méthode consiste à partir d’un algorithme générique que l’on va « entraîner » sur un massif de données. À l’issue de cet entraînement, les paramètres de cet algorithme sont alors spécifiques à ces données.  Cette […]

Écrire du code de qualité est essentiel en data

Data science et développement informatique sont deux domaines très proches l’un de l’autre. En particulier, la data emprunte beaucoup au développement, qu’il est utile de maîtriser pour être un spécialiste data accompli. En effet, plusieurs logiciels permettant de faire de l’analyse de données via une interface graphique existent et se sont développés ces dernières années […]