Dive deeper into Delta Lake on Databricks

Delta Sharing | Unity Catalog | Delta Live Tables

Qu'est-ce que Delta Lake ?

Delta Lake est une couche de stockage au format ouvert qui offre fiabilité, sécurité et performances à votre data lake, pour les opérations de streaming mais aussi de batch. En remplaçant les silos par un emplacement unique dédié aux données structurées, semi-structurées et non structurées, Delta Lake constitue la base d'un lake house rentable et hautement évolutif.

Databricks Marketure

Des données fiables et de haute qualité

Proposez une source de vérité unique et fiable pour toutes vos données, y compris pour les flux en temps réel. Vos équipes data travailleront ainsi toujours avec les bases les plus récentes. Grâce à la prise en charge des transactions ACID et à la validation des schémas, Delta Lake offre la fiabilité qui manque aux data lakes traditionnels. Cela vous permet de déployer des insights fiables dans toute votre organisation et de lancer des analyses et d'autres projets liés aux données directement depuis votre data lake, dans un temps jusqu'à 50 fois plus court.

Transactions ACID

nombre de partitions du graphique

Partage de données ouvert et sécurisé

Delta Sharing est le premier protocole ouvert pour le partage sécurisé des données. Il permet d'échanger facilement des données avec d'autres organisations, quel que soit l'endroit où elles se trouvent. L'intégration native avec le Unity Catalog vous permet de gérer et d'auditer les données partagées dans toutes les organisations, de manière centralisée. Cela vous permet également de partager en toute confiance des actifs de données avec vos fournisseurs et partenaires pour une meilleure coordination de votre activité, tout en répondant aux critères de sécurité et de conformité. Les intégrations avec les principaux outils et plateformes facilitent en outre la visualisation, l'interrogation, l'enrichissement et le contrôle des données partagées à partir des outils de votre choix.

Des performances rapides comme l'éclair

Embarquant le moteur Apache Spark™, Delta Lake offre une mise à l'échelle et une vitesse impressionnantes. Grâce à des fonctionnalités comme l'indexation, qui optimisent ses performances, Delta Lake permet à ses clients de générer des tâches ETL avec une vitesse d'exécution jusqu'à 48 % plus rapide.

nombre de partitions du graphique

Logos de Delta Lake et de Linux Foundation

Ouvert et agile

Toutes les données de Delta Lake sont stockées au format ouvert Apache Parquet. Elles sont donc lisibles par n'importe quel lecteur adapté. Les API sont ouvertes et compatibles avec Apache Spark. Avec Delta Lake pour Databricks, vous accédez à un vaste écosystème open source, évitant ainsi tout verrouillage des données dans des formats propriétaires.

Data engineering automatisé et fiable

Simplifiez votre data engineering avec Delta Live Tables. Ce framework vous permet de construire et de gérer facilement des pipelines de données afin d'obtenir des données fraîches et de grande qualité sur Delta Lake. En aidant les équipes de data engineering à simplifier le développement et la gestion de l'ETL, grâce à la création de pipelines déclaratifs, à l'amélioration de la fiabilité des données et la mise en place d'opérations de production à l'échelle du Cloud, Delta Live Tables facilite la construction des fondations de Lakehouse.

Delta Live tables

paramètres de sécurité et de conformité

Sécurité et gouvernance à l'échelle

Delta Lake réduit les risques grâce à une gouvernance des données reposant sur la finesse des contrôles d'accès, ce qui n'est en principe pas possible avec les data lakes. Vous pouvez mettre à jour rapidement et avec précision les données de votre data lake pour vous conformer à des réglementations telles que le RGPD, et maintenir une meilleure gouvernance des données grâce à la journalisation des audits. Ces fonctionnalités sont nativement intégrées et améliorées pour Databricks dans le cadre du Unity Catalog, le premier catalogue de données multicloud pour le Lakehouse.

Cas d’utilisation

La BI sur vos données

Mettez à disposition de vos analystes de nouvelles données en temps réel et obtenez des insights immédiats sur votre entreprise grâce à des tâches de Business Intelligence directement exécutées sur votre data lake.Delta Lake vous permet d'exploiter une architecture lakehouse multicloud qui offre des performances d'entreposage de données à des coûts proches de ceux des data lakes, pour un rapport prix / performance jusqu'à 4 fois meilleur pour les tâches SQL que les entrepôts de données classiques sur le Cloud.En savoir plus

Unifier batch et streaming

Exécutez des opérations de streaming et de batch sur une architecture simplifiée qui évite les systèmes complexes et redondants, ainsi que les difficultés opérationnelles. Dans Delta Lake, une table est à la fois une table batch mais aussi une source de streaming et un puits de données. L'ingestion de données en streaming, le remplissage historique par batch et les requêtes interactives fonctionnent sans aucun effort supplémentaire, s'intégrant directement à Spark Structured Streaming.

Répondre aux exigences réglementaires

Delta Lake élimine les problèmes liés à l'ingestion de données erronées, à la suppression des données pour des raisons de conformité et aux changements dans la capture de données modifiées (Change Data Capture). Grâce à la prise en charge des transactions ACID dans votre data lake, Delta Lake garantit que chaque opération est entièrement menée à bien ou abandonnée en vue de nouvelles tentatives ultérieures, sans nécessiter la création de nouveaux pipelines de données. D'autre part, Delta Lake enregistre toutes les transactions précédentes sur votre data lake, facilitant ainsi l'accès aux versions antérieures de vos données pour répondre de manière fiable aux normes de conformité telles que le RGPD et le CCPA.

Réseau d'ingestion de données

Des connecteurs natifs pour faciliter une ingestion fiable et rapide des données dans Delta Lake, depuis tous vos stockages de fichiers, applications et bases de données.

logos des clients

Clients

Logo de Healthdirect

« Databricks nous a fourni les analyses, les délais de mise sur le marché et le coup de pouce opérationnel dont nous avions besoin pour répondre aux nouvelles exigences du secteur de la santé. » – Peter James, Architecte en chef, Healthdirect Australia

En savoir plus

Logo de YipitData

« En exploitant Databricks et Delta Lake, nous avons déjà pu démocratiser les données à l'échelle, tout en réduisant de 60 % le coût d'exécution des tâches de production, ce qui nous fait économiser des millions de dollars. »
- Steve Pulec, Directeur technique, YipitData

En savoir plus

Logo Columbia

« »Delta Lake offre des fonctionnalités ACID qui simplifient les opérations de pipeline de données afin d'améliorer la fiabilité et la cohérence des données. Parallèlement, des fonctionnalités telles que la mise en cache et l'indexation automatique permettent un accès efficace et performant aux données. »
- Lara Minor, Senior Enterprise Data Manager, Columbia Sportswear

En savoir plus

Logo de Viacom18

« Delta Lake a créé une approche simplifiée de la gestion des pipelines de données. Nous avons ainsi pu réduire les coûts opérationnels tout en accélérant la production d'analyses et les processus de data science. »
- Parijat Dey, Vice-président adjoint, en charge de la transformation numérique et de la technologie, Viacom18

En savoir plus

Ressources

Conférences et formations technologiques

Webinaires