Revenir au contenu principal

Delta Lake

Fiabilité, sécurité et performance
de votre data lake

marketure

Qu'est-ce que Delta Lake ?

Delta Lake est une couche de stockage au format ouvert qui offre fiabilité, sécurité et performances à votre data lake, pour les opérations de streaming mais aussi de batch. En remplaçant les silos par un emplacement unique dédié aux données structurées, semi-structurées et non structurées, Delta Lake constitue la base d'un lake house rentable et hautement évolutif.

Delta-Lake-Image

Des données fiables et de haute qualité

Proposez une source de vérité unique et fiable pour toutes vos données, y compris pour les flux en temps réel. Vos équipes data travailleront ainsi toujours avec les bases les plus récentes. Grâce à la prise en charge des transactions ACID et à la validation des schémas, Delta Lake offre la fiabilité qui manque aux data lakes traditionnels. Cela vous permet de déployer des insights fiables dans toute votre organisation et de lancer des analyses et d'autres projets liés aux données directement depuis votre data lake, dans un temps jusqu'à 50 fois plus court.

unity-catalog

Partage de données ouvert et sécurisé

Delta Sharing est le premier protocole ouvert pour le partage sécurisé des données. Il permet d'échanger facilement des données avec d'autres organisations, quel que soit l'endroit où elles se trouvent. L'intégration native avec le Unity Catalog vous permet de gérer et d'auditer les données partagées dans toutes les organisations, de façon centralisée. Cela vous permet également de partager en toute confiance des actifs de données avec vos fournisseurs et partenaires pour une meilleure coordination de votre activité, tout en répondant aux critères de sécurité et de conformité. Les intégrations avec les principaux outils et plateformes facilitent en outre la visualisation, l'interrogation, l'enrichissement et le contrôle des données partagées à partir des outils de votre choix.

delta-lake-product

Des performances rapides comme l'éclair

Bâti sur le moteur Apache Spark™, Delta Lake offre des performances exceptionnelles en termes de vitesse et d'échelle. Grâce à des fonctionnalités qui optimisent ses performances comme l'indexation, Delta Lake permet à ses clients de traiter des charges ETL avec une vitesse d'exécution jusqu'à 48 fois supérieure.

delta-lak

Ouvert et agile

Toutes les données de Delta Lake sont stockées au format ouvert Apache Parquet. Elles sont donc lisibles par n'importe quel lecteur adapté. Les API sont ouvertes et compatibles avec Apache Spark. Avec Delta Lake pour Databricks, vous accédez à un vaste écosystème open source, évitant ainsi tout verrouillage des données dans des formats propriétaires.

Pipeline-Graph

Data engineering automatisé et fiable

Simplifiez votre data engineering avec Delta Live Tables. Ce framework vous permet de construire et de gérer facilement des pipelines de données afin d'obtenir des données fraîches et de grande qualité sur Delta Lake. En aidant les équipes de data engineering à simplifier le développement et la gestion de l'ETL, grâce à la création de pipelines déclaratifs, à l'amélioration de la fiabilité des données et la mise en place d'opérations de production à l'échelle du Cloud, Delta Live Tables facilite la construction des fondations de Lakehouse.

unity_catalog

Sécurité et gouvernance à l'échelle

Delta Lake réduit les risques grâce à une gouvernance des données reposant sur la finesse des contrôles d'accès, ce qui n'est en principe pas possible avec les data lakes. Vous pouvez mettre à jour rapidement et avec précision les données de votre data lake pour vous conformer à des réglementations telles que le RGPD, et maintenir une meilleure gouvernance des données grâce à la journalisation des audits. Ces fonctionnalités sont nativement intégrées et améliorées pour Databricks dans le cadre du Unity Catalog, le premier catalogue de données multicloud pour le Lakehouse.

Cas d’utilisation

Delta Lake Use cases

La BI sur vos données

Mettez à disposition de vos analystes de nouvelles données en temps réel et obtenez des insights immédiats sur votre entreprise grâce à des tâches de Business Intelligence directement exécutées sur votre datalake. Delta Lake vous permet d'exploiter une architecture lakehouse multicloud qui offre des performances d'entreposage de données à des coûts proches de ceux des data lakes, pour un rapport prix / performance jusqu'à quatre fois meilleur pour les tâches SQL que les data warehouses classiques dans le Cloud.

En savoir plus
Delta Lake Use cases

Unifier batch et streaming

Exécutez des opérations de streaming et de batch sur une architecture simplifiée, en évitant les systèmes complexes et redondants, ainsi que les difficultés opérationnelles. Dans Delta Lake, une table est à la fois une table batch mais aussi une source de streaming et un puits de données. L'ingestion de données en streaming, le remplissage historique par batch et les requêtes interactives fonctionnent sans aucun effort supplémentaire, s'intégrant directement à Spark Structured Streaming.

Delta Lake Use cases

Répondre aux exigences réglementaires

Delta Lake élimine les problèmes liés à l'ingestion de données erronées, à la suppression des données pour des raisons de conformité et aux changements dans la capture de données modifiées (Change Data Capture). Grâce à la prise en charge des transactions ACID dans votre data lake, Delta Lake garantit que chaque opération est entièrement menée à bien ou abandonnée en vue de nouvelles tentatives ultérieures, sans nécessiter la création de nouveaux pipelines de données. D'autre part, Delta Lake enregistre toutes les transactions précédentes sur votre data lake, facilitant ainsi l'accès aux versions antérieures de vos données pour répondre de manière fiable aux normes de conformité telles que le RGPD et le CCPA.

Réseau d'ingestion de données

Des connecteurs natifs pour faciliter une ingestion fiable et rapide des données dans Delta Lake, depuis tous vos stockages de fichiers, applications et bases de données.

Clients

healthdirect

« Databricks nous a fourni les analyses, les délais de mise sur le marché et le coup de pouce opérationnel dont nous avions besoin pour répondre aux nouvelles exigences du secteur de la santé. » – Peter James, Architecte en chef, Healthdirect Australia

En savoir plus
Yipit Data

« En exploitant Databricks et Delta Lake, nous avons déjà pu démocratiser les données à l'échelle, tout en réduisant de 60 % le coût d'exécution des tâches de production, ce qui nous fait économiser des millions de dollars. »
- Steve Pulec, Directeur technique, YipitData

En savoir plus
Columbia

« »Delta Lake offre des fonctionnalités ACID qui simplifient les opérations de pipeline de données afin d'améliorer la fiabilité et la cohérence des données. Parallèlement, des fonctionnalités telles que la mise en cache et l'indexation automatique permettent un accès efficace et performant aux données. »
- Lara Minor, Senior Enterprise Data Manager, Columbia Sportswear

En savoir plus
Viacom 18

« Delta Lake a créé une approche simplifiée de la gestion des pipelines de données. Nous avons ainsi pu réduire les coûts opérationnels tout en accélérant la production d'analyses et les processus de data science. »
- Parijat Dey, Vice-président adjoint, en charge de la transformation numérique et de la technologie, Viacom18

En savoir plus