Delta Lake UniForm
Un système de stockage hautement performant et indépendant du format pour votre data lakehouse ouvert
Delta Lake UniForm unifie les données du lakehouse, quels que soient leur format et leur type, pour les mettre à disposition de toutes vos charges d'analytique et d'IA.
Ouvert et compatible avec tous les formats
Utilisez vos outils d'analytique et d'IA habituels quel que soit le format des données ouvertes. UniForm traduit automatiquement et instantanément d'un format à l'autre. Vous ne conservez ainsi qu'un seul exemplaire de vos données sources. Et vous pouvez utiliser votre client Iceberg ou Hudi habituel pour lire vos tables Delta par le biais du point de terminaison Unity Catalog. Avec UniForm, vos données restent portables et vous gardez toute votre indépendance vis-à-vis des fournisseurs.
Connecter les écosystèmes
Delta Lake s'accompagne d'un vaste écosystème de connecteurs et prend en charge de nombreux frameworks et langages différents. Delta Sharing est le premier protocole ouvert pour le partage sécurisé des données. Il permet d'échanger facilement des données avec d'autres organisations, quel que soit l'endroit où elles se trouvent. L'intégration native avec le Unity Catalog vous permet de gérer et d'auditer les données partagées dans toutes les organisations, de manière centralisée. Cela vous permet également de partager en toute confiance des assets de données avec vos fournisseurs et partenaires pour une meilleure coordination de votre activité, tout en répondant aux critères de sécurité et de conformité. Et grâce aux intégrations avec les principaux outils et plateformes, vous pouvez visualiser, interroger, enrichir et régir les données partagées à partir des outils de votre choix.
Des performances fiables et rapides
Delta Lake permet d'atteindre une échelle et une vitesse considérables. Les charges de données et les requêtes s'exécutent jusqu'à 1,7 fois plus rapidement qu'avec les autres formats de stockage. Utilisé en production par plus de 10 000 clients, Delta Lake est capable de traiter plus de 40 millions d'événements par seconde avec un seul pipeline. Ce sont plus de 5 exaoctets qui sont traités chaque jour avec Delta Lake.
Lorsque UniForm est activé sur des tables Delta Lake, l'écriture de métadonnées dans d'autres formats ne dégrade pas les performances des requêtes. Les tables UniForm offrent des performances de lecture comparables aux formats propriétaires utilisés avec leur moteur natif.
L'IA au service du rapport prix-performance
La Data Intelligence Platform de Databricks optimise vos données en fonctions de vos usages. Les améliorations de performance basées sur l'IA – alimentées par DatabricksIQ, le moteur d'intelligence des données de Databricks –, administrent, configurent et optimisent automatiquement vos données.
Le clustering fluide délivre les performances d'une table idéalement ajustée et partitionnée, sans les questions qui y sont traditionnellement associées. Ne vous demandez pas si vous pouvez partitionner des colonnes à haute cardinalité, ou combien vous coûteront les réécritures en cas de changement de colonne de partition. Le résultat : des tables extrêmement rapides, regroupées en clusters optimisés, avec un minimum de configuration.
L'optimisation prédictive organise automatiquement vos données pour parvenir au meilleur rapport prix-performance. Elle apprend vos habitudes d'utilisation, élabore un plan d'optimisation puis le met à exécution sur une infrastructure serverless hyperoptimisée.
Sécurité et gouvernance à l'échelle
Delta Lake réduit les risques grâce à une gouvernance des données reposant sur la finesse des contrôles d'accès, ce qui n'est en principe pas possible avec les data lakes. Vous pouvez mettre à jour rapidement et avec précision les données de votre data lake pour vous conformer à des réglementations comme le RGPD. Vous maintenez aussi une meilleure gouvernance des données grâce à la journalisation des audits. Ces fonctionnalités sont nativement intégrées et améliorées pour Databricks dans le cadre du Unity Catalog, le premier catalogue de données multicloud pour le Lakehouse.
Data engineering automatisé et fiable
Simplifiez votre data engineering avec Delta Live Tables. Ce framework vous permet de construire et de gérer facilement des pipelines afin d'obtenir des données fraîches et de grande qualité sur Delta Lake. Delta Live Tables aide les équipes de data engineering à simplifier le développement et la gestion de l'ETL, grâce à la création de pipelines déclaratifs, à l'amélioration de la fiabilité des données et la mise en place d'opérations de production à l'échelle du Cloud. Cela facilite aussi la construction des fondations de Lakehouse.
Cas d’utilisation
La BI sur vos données
Mettez à disposition de vos analystes de nouvelles données en temps réel et obtenez des insights immédiats sur votre entreprise grâce à des tâches de Business Intelligence directement exécutées sur votre datalake. Delta Lake vous permet d'exploiter une architecture lakehouse multicloud qui offre des performances d'entreposage de données à des coûts proches de ceux des data lakes, pour un rapport prix / performance jusqu'à quatre fois meilleur pour les tâches SQL que les data warehouses classiques dans le Cloud.
Unifier batch et streaming
Exécutez des opérations de streaming et de batch sur une architecture simplifiée, en évitant les systèmes complexes et redondants, ainsi que les difficultés opérationnelles. Dans Delta Lake, une table est à la fois une table batch mais aussi une source de streaming et un puits de données. L'ingestion de données en streaming, le remplissage historique par batch et les requêtes interactives fonctionnent sans aucun effort supplémentaire, s'intégrant directement à Spark Structured Streaming.
Répondre aux exigences réglementaires
Delta Lake élimine les problèmes liés à l'ingestion de données erronées, à la suppression des données pour des raisons de conformité et aux changements dans la capture de données modifiées (Change Data Capture). Grâce à la prise en charge des transactions ACID dans votre data lake, Delta Lake garantit que chaque opération est entièrement menée à bien ou abandonnée en vue de nouvelles tentatives ultérieures, sans nécessiter la création de nouveaux pipelines de données. D'autre part, Delta Lake enregistre toutes les transactions précédentes sur votre data lake, facilitant ainsi l'accès aux versions antérieures de vos données pour répondre de manière fiable aux normes de conformité telles que le RGPD et le CCPA.
En savoir plus
Clients
« Databricks nous a fourni les analyses, les délais de mise sur le marché et le coup de pouce opérationnel dont nous avions besoin pour répondre aux nouvelles exigences du secteur de la santé. » – Peter James, Architecte en chef, Healthdirect Australia
« En exploitant Databricks et Delta Lake, nous avons déjà pu démocratiser les données à l'échelle, tout en réduisant de 60 % le coût d'exécution des tâches de production, ce qui nous fait économiser des millions de dollars. »
- Steve Pulec, Directeur technique, YipitData
« »Delta Lake offre des fonctionnalités ACID qui simplifient les opérations de pipeline de données afin d'améliorer la fiabilité et la cohérence des données. Parallèlement, des fonctionnalités telles que la mise en cache et l'indexation automatique permettent un accès efficace et performant aux données. »
- Lara Minor, Senior Enterprise Data Manager, Columbia Sportswear
« Delta Lake a créé une approche simplifiée de la gestion des pipelines de données. Nous avons ainsi pu réduire les coûts opérationnels tout en accélérant la production d'analyses et les processus de data science. »
- Parijat Dey, Vice-président adjoint, en charge de la transformation numérique et de la technologie, Viacom18