Databricks pour le data engineering

Concevoir des pipelines de données rapides et fiables

Plateforme optimisée pour le cloud basée sur Apache Spark™

Databricks Runtime est au cœur de la plateforme d'analyse unifiée de Databricks.
Conçu sur la base d'un cluster Spark hautement optimisé, il va jusqu'à quintupler les performances en traitement de données.

Databricks IO

S'appuie sur des briques intégrées verticalement pour optimiser la couche d'E/S et la couche de traitement afin d'améliorer significativement les performances de Spark dans le cloud.

Databricks Serverless

Une architecture sans serveur qui démocratise l'infrastructure grâce à la configuration et au dimensionnement automatique des ressources de calcul, ce qui permet des performances inégalées à un coût nettement inférieur.

Intégralement managé dans le cloud

Une plateforme native cloud qui élimine les complexités d'une infrastructure big data et propose ainsi un haut niveau de flexibilité, fiabilité et de performance permettant de concevoir des produits innovants.


Databricks Runtime est plus performant que d'autres moteurs de calcul :

5x plus rapide
qu'un Apache Spark standard sur AWS
Temps d'exécution total pour 104 requêtes
(en secondes, nombre inférieur = plus performant)

8x plus rapide
qu'Apache Presto sur AWS
Moy. géométrique du temps d'exécution pour 62 requêtes
(en secondes, nombre inférieur = plus performant)

3x plus rapide
qu'Impala sur site via Cloudera
Temps d'exécution total pour 77 requêtes Impala, normalisé par cœur de CPU (en secondes, nombre inférieur = plus performant)

Databricks nous a aidés à mettre une nouvelle fonctionnalité sur le marché tout en multipliant par dix les performances du pipeline de données. À ce jour, il fait fonctionner l'ensemble de notre pipeline de production avec des clusters Spark de plusieurs téraoctets.

Logo MyFitnessPal

Chul Lee, directeur data engineering & science chez MyFitnessPal

Découvrez comment Databricks peut améliorer les performances de votre pipeline de données :

Rationalisez les processus des ETL à la production

Collaboration entre équipes

Favoriser la collaboration et le partage d'informations en temps réel au sein des équipes et entre les équipes de data engineering, data science et métier grâce à un espace de travail interactif.

Flux de travail de production

Une plateforme unifiée qui rationalise les flux de travail de bout en bout, de l'ingestion de données et des ETL à la mise en production des modèles et des produits basés sur les données, en passant par la conception de modèles et l'exploration de données.

Unifier toutes les analyses

Passez d'un type d'analyse à l'autre (par lot, ad hoc, machine learning, deep learning, traitement de flux ou encore traitement graphique) en toute fluidité.

Intégrations robustes

Connectez-vous à une vaste gamme de banques de données et d'outils AWS grâce aux connecteurs inclus, et intégrez-vous à d'autres services de data engineering pour faciliter l'approche CI/CD grâce à des API très complètes.


Pour McGraw-Hill Education, il est essentiel d'avoir un flux de travail souple dédié à l'innovation. La plateforme d'analyse unifiée de Databricks est au cœur de notre écosystème ; elle soutient nos flux de travail et notre pipeline d’innovation.

Logo McGraw-Hill Education

Alfred Essa, vice-président en charge de la recherche et de la data science chez McGraw-Hill Education

Comment Databricks a rationalisé les flux de travail des développeurs pour améliorer l'efficacité des processus :

Protéger les données de l'entreprise sur Spark

Chiffrement fort des données

Profitez de la meilleure protection du marché, au repos et en mouvement.

Suivi et audits

Utilisez les journaux d'audit pour suivre et résoudre les problèmes.

Unifier toutes les analyses

Accès à une gestion fine de chaque composant de l'infrastructure data de l'entreprise, y compris ses fichiers, clusters, son code, ses déploiements d'applications et ses tableaux de bord.

Gestion intégrée des identités

Intégration transparente avec les fournisseurs d'identité d'entreprise via SAML 2.0 et Active Directory.


Découvrez comment Databricks maintient les plus hautes normes de sécurité :

Notre expertise de Spark est notre atout

Assistance experte

Un niveau d'assistance inégalé proposé par l'équipe à l'origine du projet de recherche Spark à l'Université de Californie à Berkeley, devenu depuis Apache Spark.

Services professionnels

Innovez plus rapidement avec Databricks et Spark grâce aux services d'optimisation des charges de travail et de conception de solutions.

Toujours disponible

Disponibilité 24 h/24 pour garantir une résolution rapide des problèmes, avec un temps de réponse d'une heure pour l'assistance de niveau production.

Ressources techniques

Bibliothèque en ligne de documents, bonnes pratiques, guides de l'utilisateur et autres ressources techniques.


La qualité de l'assistance Databricks et la façon dont elle a permis à notre équipe à prospérer sont cruciales pour notre activité.

Logo Hotels.com

Matt Fryer, vice-président, directeur du service data science chez Hotels.com

Bénéficiez de l'assistance dont vous avez besoin par nos experts Spark :

 En savoir plus sur l'assistance

Réduisez votre TCO grâce à une gestion plus intelligente de votre infrastructure

De meilleures performances

Des clusters optimisés pour le cloud vous permettent de terminer vos tâches en un temps record tout en limitant vos coûts de calcul dans le cloud.

Clusters intégralement managés

Réduisez encore les coûts en vous libérant des tâches chronophages liées à la conception, à la configuration et à la maintenance d'une infrastructure Spark complexe.

Payez uniquement ce que vous utilisez

La facturation à la seconde vous aide à maîtriser les coûts.

Tarif adapté au data engineering

Gamme de prix plus économique pour les charges de travail de data engineering en production.
Voir les tarifs >


Databricks est notre système de prédilection pour les applications nécessitant un traitement et une analyse approfondis des données. En peu de temps, nous avons multiplié notre vitesse de traitement par quatre, sans coût de fonctionnement supplémentaire.

Logo Eyeview

Gal Barnea, directeur technique, Eyeview

Découvrez comment Databricks vous aide à réduire votre TCO :