Databricks Runtime – Databricks

Runtime Databricks

Un moteur Apache Spark™ hautement optimisé, exécuté sur une infrastructure qui s'adapte automatiquement

Databricks Runtime est un moteur de traitement de données basé sur une version hautement optimisée d'Apache Spark, pour des gains de performance jusqu'à 50 fois supérieurs. Celui-ci s'exécute sur une infrastructure qui s'adapte automatiquement pour une gestion libre-service simplifiée sans DevOps tout en offrant tout le contrôle sécuritaire et administratif nécessaire en vue de la production. Développez des pipelines, planifiez des tâches et entraînez des modèles à une vitesse inédite.

Avantages

Performance

Databricks Runtime a été considérablement optimisé par les créateurs originaux d'Apache Spark. Grâce à ces gains de performance significatifs, qui boosteront la productivité des équipes data, de nouveaux cas d'utilisation deviennent désormais possibles pour le traitement et les pipelines de données.
 

RENTABILITÉ

Le runtime tire parti d'une capacité de calcul et de stockage à l'évolutivité automatique pour optimiser la gestion des coûts liés à l'infrastructure. Les clusters s'activent et se désactivent de manière intelligente tandis qu'un excellent rapport coût-performance permet de réduire les frais d'infrastructure.
 

SIMPLICITÉ

Databricks a doté Spark d'une suite de services intégrés dédiés à l'automatisation et à la gestion afin de permettre aux équipes data de développer et gérer en toute simplicité leurs pipelines tout en offrant aux équipes informatiques un contrôle continu sur le plan administratif.

Fonctionnalités

 

Mise en cache : des copies des fichiers distants sont mises en cache dans le stockage local à l'aide d'un format de données intermédiaire rapide, qui améliore la vitesse de lecture successive de données identiques.
 
Clustering par ordre de plan : lale regroupement d'informations liées au sein d'un même groupe de fichiers réduit considérablement le volume de données à lire, pour des réponses plus rapides aux requêtes.
 
Optimisation des opérations de jonction : des gains de performance considérables sont possibles grâce à l'optimisation des opérations de jonction de plages et asymétries au travers de différents modèles de requête et des indicateurs d'asymétrie.
 
Données ignorées : des informations statistiques sur les valeurs minimales et maximales sont recueillies automatiquement lors de l'écriture des données, puis utilisées au moment de la requête afin de fournir des réponses plus rapides.
 
Gestion simplifiée des clusters : une interface conviviale simplifie la création, le redémarrage et l'arrêt des clusters, améliorant ainsi la visibilité de vos clusters pour faciliter leur gestion et permettre une meilleure maîtrise des coûts.
 
Disponibilité élevée : le gestionnaire de clusters Databricks relance de manière transparente toute instance de traitement révoquée ou interrompue pour un service toujours opérationnel, même lorsque vous n'êtes pas là pour en assurer la gestion.
 

Clusters flexibles à la demande : développez des clusters à la demande en quelques minutes et en quelques clics seulement, puis faites-les évoluer en fonction de vos besoins. Reconfigurez ou réutilisez vos ressources dès qu'une équipe ou un service en a la nécessité.
 
Rétrocompatibilité et mises à niveau automatiques : choisissez la version de Spark qui vous convient le mieux tout en ayant la certitude que les tâches héritées continueront à s'exécuter sur les versions précédentes et obtenez en toute simplicité la dernière version disponible.
 
Ordonnanceur flexible : exécutez des tâches pour les pipelines en production selon un calendrier précis, avec des intervalles de quelques minutes ou quelques heures et quel que soit le fuseau horaire, et en incluant la syntaxe cron et les politiques de relance.
 
Notifications : avertissez un groupe d'utilisateurs donné chaque fois qu'une tâche de production est lancée, interrompue et/ou achevée sans qu'aucune intervention humaine ne soit nécessaire grâce à l'intégration d'une messagerie électronique ou d'un avertisseur de production tiers.
 
Types de tâches flexibles : exécutez différents types de tâches pour tous vos cas d'utilisation, tels que des notebooks, Spark JAR, bibliothèques Spark et applications personnalisées.
 
Sources de données optimisées : un dépôt central pour vos sources de données Spark avec une compatibilité élevée (SQL, NoSQL, Columnar, Document, UDF, nombreux magasins de fichiers, formats de fichiers, moteurs de recherche et bien d'autres).

Comment ça marche

 

Runtime Databricks

Databricks Runtime met en œuvre les API ouvertes d'Apache Spark grâce
à un moteur d'exécution hautement optimisé, qui offre des gains de performance considérables en comparaison avec une utilisation d'Apache Spark open-source standard sur d'autres plateformes cloud Spark.
Ce moteur central est ensuite complété par des services additionnels,
pour stimuler la productivité des développeurs tout en assurant la gouvernance d'entreprise.

Ressources