Retrouvez-nous le 14 mai au Google Cloud Summit à l'Accor Arena - Paris !

logo saagie red
illustration blog data fabrics projet big data et ia

La Data Fabric pour concrétiser vos projets Big Data et IA !

Big DataData Science, intelligence artificielle… Si ces termes gagnent chaque jour en popularité, peu d’initiatives voient en réalité le jour. De nombreuses entreprises ont des projets et cas d’usage à adresser, mais encore faut-il pouvoir les mettre en production. La Data Fabric apparaît alors comme une solution prometteuse. C’est un concept qui a émergé outre atlantique ces derniers mois dans la presse spécialisée, avec plusieurs définitions (ForbesNetworkWorld…). Nous allons dans cet article vous expliquer dans quelle mesure elle peut vous aider à concrétiser vos projets Big Data et IA.

Qu'est-ce qu'une data fabric ?

Par manque d’expertise, de temps, de technologie ou de moyens, rares sont aujourd’hui les entreprises qui peuvent gérer leurs données seules. Elles sont néanmoins nombreuses à avoir réalisé l’enjeu que peut représenter leur traitement. C’est là qu’intervient la Data Fabric. Elle vous permet de gouverner, d’exploiter et de sécuriser vos données en temps réel, mais surtout de développer des applications métiers afin de répondre à vos problématiques.

Une Data Fabric est une solution logicielle de gestion de données. Disponible dans le cloud et sur site, elle permet d’accélérer la transformation digitale de votre entreprise et la mise en production de vos projets. A l’intersection entre la plateforme de Data Management, celle de Data Science et le Data lake, elle représente un ensemble cohérent de solutions logicielles et applicatives, indifférentes aux choix architecturaux. Elle offre une solution plus complète en permettant de gérer de bout en bout le cycle de vie de vos données : collecte, stockage, traitement, modélisation, déploiement, supervision, gouvernance. En effet, peu importe la source d’où proviennent les données, la Data Fabric offre un ensemble de technologies qui permet de répondre à des problématiques diverses.

C’est là aussi que se différencie la Data Fabric, puisqu’elle offre une vision différente de vos données, une vision qui peut être partagée par l’ensemble de vos équipes. Grâce à ses multiples applications, elle permet à des profils moins experts d’y avoir accès, et ainsi d’apporter une valeur métier à vos données.

N'est pas data fabric qui veut

Selon Dan Kusnetzky, une Data Fabric doit répondre à ces différents critères :

  • Combiner des données de divers systèmes peu importe leur taille et les rendre disponibles aux applications tout en garantissant vitesse et fiabilité.
  • Offrir un accès aux données aussi bien de systèmes à l’autre bout du réseau qu’à celui du Data Center de l’entreprise, ou des environnements cloud.
  • Offrir un environnement unifié : les documents doivent y être facilement accessibles, la sécurité doit y être garantie et la capacité de stockage doit être suffisante.

La data fabric n'est pas une plateforme data science

On pourrait s’y méprendre, mais Data Fabric et Plateforme Data Science sont bien deux outils distincts. Dans une vision simpliste, une plateforme Data Science sert à développer des algorithmes afin de concrétiser des projets d’Intelligence artificielle et plus particulièrement de Machine Learning ou de Deep Learning. Elle n’est pas toujours adaptée aux profils métiers pour qui les algorithmes doivent au préalable être intégrés dans une application afin d’être lus. En revanche, la Data Fabric est un véritable écosystème qui permet la gestion des données, de leur extraction jusqu’à leur consommation, en passant par leur traitement. Contrairement à la plateforme, elle facilite la mise en production de vos projets. Toutes les technologies y sont assemblées, les profils métiers peuvent y accéder facilement, les plus techniques profitent de sa compatibilité qui leur permet de travailler sur n’importe quel langage (R, Python…). Pour faire simple, la Data Fabric, plus complète, pourrait englober une plateforme Data Science.

Pourquoi choisir la data fabric ?

Pour sa compatibilité. A titre d’exemple, la Data Fabric de Saagie supporte HDFS, Impala, Hive, Drill, Spark, Sqoop, Elasticsearch, PostgreSQL, Talend, Java, Scala, R, Python, Jupyter, Docker, Zeppelin, Mongo DB et MySQL. Elle permet une adaptabilité complète en supportant les dernières versions, mais aussi les moins récentes. la Data Fabric se charge ensuite d’assurer une certaine cohésion entre les différents outils utilisés.

La Data Fabric apparaît donc comme une alternative viable face aux limites affichées par les plateformes de gestion de données. Les traitements sur les données y sont rendus possibles, peu importe l’endroit où ces données sont hébergées (dans le cloud, chez le customer, sur Azure, sur AWS…). L’outil est de ce fait adaptable à de multiples cas d’usage.

Pour la gouvernance. La standardisation des processus liés aux traitements de données peut être mise en place et utilisée à d’autres fins. Il est possible de créer des équipes par projet, de partager ou non des entités diverses telles que du code ou des bases de données, et d’optimiser le traitement pour que les résultats des analyses puissent être utilisés par les bons métiers, et donc engendrer de la valeur. Si une organisation de technologies et personnes s’établit autour de cet outil, on pourra alors parler de gouvernance des données. On associe de plus en plus gouvernance à RGPD, mais si elle permet d’assurer la sécurité de la donnée en contrôlant les traitements et en restreignant certains accès, elle comprend aussi une valeur économique. Ainsi, elle permet de garantir la qualité et la valeur des informations de l’entreprise.

Enfin, la Data Fabric fédère vos équipes. Elle facilite la collaboration entre les membres de l’équipe data (data engineers, data scientists, business analysts, data stewards, IT/Ops) et leur fournit les outils leur permettant de mener à bien leurs projets.

  • Data engineer : la possibilité de créer des pipelines permettant de collecter, de nettoyer et de traiter la donnée ainsi que d’alimenter les différents modèles préparés par les data scientists.
  • Data scientists : l’accès aux dernières versions des langages de programmation et des fonctionnalités pour passer à l’échelle leur développement; l’accès à une quantité plus large de données.
  • Data analysts : le libre accès aux données afin de pourvoir travailler des vues business.
  • Data stewards : des outils pour documenter la donnée.
  • IT/Ops : un environnement sécurisé pour amener en production les travaux et gérer les accès à la donnée.

Et pour quoi faire ?

Les cas d’usage sont multiples, chez Saagie nous sommes ainsi en capacité de :

  • réduire votre taux d’attrition,
  • faire de la segmentation client,
  • optimiser la supply chain
  • améliorer la chaîne de production, entre autres…

Transformation digitale, passage à l’ère numérique… quelle que soit l’expression utilisée, les entreprises sont en train de changer, et le temps presse. Afin d’exploiter leurs données, elles ont besoin d’une solution simple mais complète. En mettant du Devops dans la Data Science, la Data Fabric permet de tirer profit de ses données et rend possible la prise rapide de décisions ciblées par l’exploitation, le tri et l’analyse des données en fonction des métiers. Chacun y trouve donc son compte.