Découvrez notre dernier livre blanc : La Data Fabric pour industrialiser les Data Labs

Téléchargez le livre blanc

Produit

Technologies supportées

Saagie Data Fabric propose les meilleures technologies open source

Apache Hadoop Distributed File System

HDFS est un framework extensible et portable développé par la fondation Apache Software Foundation.

Vous pourrez stocker des téraoctets de données simplement en ajoutant des serveurs. Il gère aussi les pannes serveurs avec de la réplication sur au moins trois niveaux.

Apache Impala

Impala est un outil de gestion de données analytiques libre de droits, qui fonctionne dans l’environnement Apache Hadoop.

Vous pouvez maintenant traiter des terabytes de données avec un minimum de bagages SQL.

Apache Hive

Hive est une infrastructure de stockage de données intégrée à Hadoop permettant l’analyse de grandes quantités de données.

Hive un outil de requête SQL puissant et stable.

Apache Drill

Prêt pour explorer vos données ? Drill vous permet d’instancier des sources de données hétérogènes en utilisant une seule requête SQL. Des requêtes depuis HDFS, Mongo, Hive ou encore Elasticsearch.

Apache Spark

Spark est un framework open source développé par UC Berkeley AMPLab, la fondation Apache et Databrick’s qui vous permet de traiter de grands volumes de données.

Spark permet de distribuer des algorithmes de machine learning sur des réseaux de serveurs. D’autre part, l’avantage de Spark est qu’il couvre l’ensemble de la chaîne de traitement des données avec une seule technologie. Notre plateforme supporte toutes les versions de Spark depuis la 1.5.

Apache Kafka

Kafka est le plus populaire des « message brokers » distribués.

Il vous aidera à concevoir des pipelines de traitements continus pour adresser vos problématiques en temps-réel.

Apache Sqoop

Sqoop est une interface de commande en ligne, développée par la Fondation Apache, permettant le transfert entre des bases relationnelles et Hadoop.

Si vous avez besoin d’importer des bases de données SQL depuis Oracle, SQL Server, MySQL ou encore PostgreSQL utilisez simplement Sqoop et vos données seront exportées dans votre lac de données.

Talend

Talend est un logiciel libre de droit, servant à l’extraction et l’intégration des données.

Si vous êtes un consultant Big Data, Talend sera votre meilleur ami pour ingérer de la donnée ou pour agréger de la donnée.

Java/Scala

Les jobs Java et Scala permettent d’exécuter le contenu dans la JVM.

Si vous êtes développeur, vous pouvez concevoir vos jobs d’intégration / agrégation en Java ou Scala. Java 7 et 8 sont supportés.

R

R est un langage de programmation et un environnement d’analyse de données statistiques.

Utilisez R pour lancer vos algorithmes et vos calculs statistiques sur mesure. R connaît un fort développement sur les trois dernières années.

Python

Python est un langage de programmation qui vous permet d’intégrer vos systèmes plus efficacement.

Python a été utilisé pendant des années dans des labos de data science et les universités. Python fournit les bibliothèques les plus complètes et stables pour le machine learning.

Notebooks

Nous proposons plusieurs versions des notebooks Jupyter couplés aux meilleurs langages de l’écosystème (Python, R, Scala, Spark, Ruby, Haskell & Julia).

Les notebooks vous permettent de tester vos procédures de traitement et vos algorithmes de machine learning sur un lac de données. Vous pouvez partager vos fichiers (graphiques et cartographies) avec vos coéquipiers pour récolter leurs feedbacks.

MongoDB

Mongo DB est une base de données multi-plateformes orientée document.

MongoDB peut aisément servir de Datamart grâce à sa flexibilité et sa facilité d’utilisation pour les développeurs.

MySQL

MySQL est la plus populaire des bases de données libres de droit.

Parfois, vous avez simplement besoin d’une simple base SQL pour stocker vos résultats.

PostgreSQL

Voilà une autre base de données SQL célèbre.

Parfaite pour absorber la charge de vos applications métiers.

Elasticsearch

Elasticsearch est le moteur de recherche le plus populaire avec des capacités de gestion distribuée, multi-tenant et textuelle.

Il peut être utilisé pour rechercher tout type de documents.

Docker

Docker vous permettra de déployer des applications pour la visualisation de vos données ou le déploiement de vos APIs. Vous pouvez aussi déployer des processus spécifiques (Fortran, C++, Golang, Rust) ou tous types de documents tels que notebook ou d’autres applications plus spécifiques.

Deux principaux avantages :

  • Nous assurons la maintenance de votre Docker, donc vous pouvez vous concentrer sur votre code.
    Vous pouvez tester tout ce qui fonctionne sur Docker sur la plateforme Saagie.

Kubernetes

Kubernetes (alias K8s) est l’outil de référence des systèmes de gestion de conteneurs Docker.

Il est continûment adopté par les moyennes et grosses entreprises qui cherchent à gérer leurs ressources physiques/virtuelles et déployer des applications sur différentes infrastructures.

Essayer Saagie Data Fabric dès maintenant!
Demander une démo
Pouvons-nous utiliser des cookies ?

Nous utilisons sur notre site des cookies. Vous pourrez trouver des explications ci-dessous. Afin d'être conforme avec la nouvelle réglementation en vigueur dans le cadre de la RGPD, merci de cliquer sur "Accepter". Après avoir cliqué, vous ne verrez plus ce message.

En savoir plus sur les traceurs