Retrouvez-nous le 14 mai au Google Cloud Summit à l'Accor Arena - Paris !

logo saagie red

Mise en place et coût d’un Data Warehouse : un mode de stockage des données hébergé sur le cloud

Votre entreprise fait face à un double constat : une croissance massive des données produites et un besoin impératif d’en tirer des informations pertinentes, impliquant tous vos services. Autrement dit, vous souhaitez acquérir un avantage concurrentiel pour votre activité en prenant des décisions éclairées, transverses et judicieuses.

Il est temps d’envisager l’utilisation d’un entrepôt de données (Data Warehouse), une solution de stockage apte à gérer les volumes massifs de data, les « Big Data ». Le Data Warehouse est en effet une base de données spécifique aux besoins décisionnels. Combiné à des outils de Business Intelligence, il permet à l’entreprise la visualisation d’analyses complexes via la création de tableaux de bord interactifs.

Le passage de la data brute à une connaissance élaborée de votre activité et de vos clients n’a jamais été aussi simple et intuitif. Reste à inscrire le projet dans le budget investissement de l’entreprise et d’en estimer le coût. Cet article, au-delà de la présentation des solutions populaires existantes, vous donne les clés de la facturation d’un data warehouse hébergé sur le cloud.

Mise en place d’un Data Warehouse hébergé sur le cloud

Traditionnellement déployés dans des data centers physiques, donc sur site (on-premise), les Data Warehouses sont de plus en plus hébergés sur le cloud. Si on perd en gouvernance des données au niveau des solutions on-premise, les avantages du cloud sont nombreux : 

  • un rapport coût/efficacité inégalé : la tarification se fait à la demande. Vous ne payez que le stockage des données et le temps de calcul (CPU) dont vous avez réellement besoin ;
  • une mise à l’échelle facile, voire automatisable  (on parle aussi de scalabilité) : vos besoins en matière de puissance de calcul augmentent ? La capacité de stockage votre Data Warehouse évoluera facilement et rapidement ;
  • une mise à jour des fonctionnalités supportée par la plateforme cloud : vous êtes toujours à la page, et vous n’avez pas à vous soucier de la maintenance du data warehouse ;
  • la sécurité des données : vous partagez les coûts de sécurisation des informations avec le fournisseur qui investit largement pour s’assurer que la plateforme est sécurisée :

Voici quelques solutions de Data Warehousing cloud populaires :

Toutes ces solutions d’entrepôt de données sont évolutives et permettent à l’entreprise :

  • de traiter des requêtes et des analyses de données par MPP (Massive Parallel Processing). Le traitement massivement parallèle (MPP) des données est adapté au big data : un ensemble de nœuds, appelé cluster, effectue des calculs coordonnés en parallèle (donc simultanément) ;
  • de stocker des données historiques ;
  • d’ingérer des données provenant de divers types de sources : ERP, BDD, CRM, Fichiers plats, etc. ;
  • d’analyser des données en continu (streaming) et de les intégrer à diverses plateformes de données tierces. 

Coût d’une architecture cloud Data Warehousing

La facturation dun Data Warehouse prend en compte le coût des ressources de stockage des données ainsi que les ressources de calculs nécessaires au traitement des requêtes et des analyses. Le stockage et le calcul sont facturés séparément. Des options supplémentaires peuvent également être facturées à l’entreprise.

L’architecture Snowflake sépare l’entreposage de données en trois couches distinctes : le stockage, les entrepôts virtuels de données (calcul) et les services cloud.

Tarifs de stockage des données via data warehouse

Le coût du stockage via l’entrepôt de données inclut la taille de la base de données principale (stockage à long terme), plus le stockage de capture instantanée incrémentielle (stockage actif).

Tarif des analyses

Il existe deux modèles de calcul différents :

  • Le modèle dédié : vous provisionnez votre cluster en fonction de vos besoins de calcul. Vous pouvez choisir d’augmenter ou de réduire vos ressources en fonction de l’évolution de vos besoins de calcul au fil du temps. 
  • Le modèle sans serveur (serverless) : vous transférez les responsabilités opérationnelles au fournisseur du data arehouse. Vous ne payez que pour la quantité de données traitées par vos requêtes.

Dans les deux cas, la tarification dépendra de la puissance du cluster utilisé et du temps dédié aux calculs, cest-à-dire au volume de données analysé et au nombre de requêtes opérées. 

Attention au dimensionnement automatique des capacités machine, qui peut engendrer des coûts importants sans surveillance. Snowflake et Google BigQuery proposent des dispositifs intéressants pour fixer des limites de consommation à l’autoscaling.

Des offres personnalisées peuvent être négociées sur les prix chez les différents fournisseurs, en fonction de l’historique de consommation de l’entreprise. Les bons clients sont récompensés, en particulier sils sengagent sur plusieurs années.

Coûts supplémentaires

D’autres opérations peuvent être facturées, selon les fournisseurs, par exemple :

  • lors de l’ingestion des données avec des insertions en flux continu (streaming) ;
  • lors de l’extraction de données avec l’utilisation d’API ; 
  • lors de transactions de stockage analytique ;
  • lors de l’utilisation des algorithmes de machine learning

Récapitulatif des coûts de mise en place d’un data warehouse

 

AWS

Amazon Redshift

Google CGP

Big Query

Microsoft

Azure Synapse

Multi-cloud

Non

Oui

 (BigQuery Omni)

Non

Modèle de calcul dédié

Oui

Non

Oui

Modèle de calcul sans serveur

Oui

Amazon Redshift Serverless

Oui

Oui

Stockage et calcul facturés séparément

Oui

Nœuds RA3

Oui

Oui

Notes sur la tarification

Amazon Redshift Spectrum : exécution de requête SQL directement sur les données d’un Data Lake Amazon S3

Paiement au nombre d’octets utilisés

Tarif à la demande ou tarif forfaitaire

Ressources informatiques vendues selon des niveaux de service prédéfinis en

Data Warehouse Units (DWU)

Site Internet

aws. redshift

google. bigquery

azure.synapse-analytics

Documentation technique

docs. redshift

bigquery/docs

docs.azure/synapse

Offre gratuite

Oui

Oui 

Oui 

Les fournisseurs d’entrepôt de données sont continuellement en concurrence pour assurer à leurs clients une meilleure vitesse, une meilleure performance des requêtes et la capacité de traiter rapidement un plus grand volume de données. 

Les offres de data warehouse proposées sont sans cesse actualisées et proposent toutes des devis personnalisés. Si vous êtes prêt à vous lancer, n’hésitez pas à contacter leur support client.