Delta Lake

Apporte fiabilité et performance à vos lacs de données

Delta Lake permet d'améliorer la fiabilité, la performance et la gestion du cycle de vie des datalakes. Dites adieu à l'ingestion de données maladroite, aux difficultés liées à la suppression des données pour des raisons de conformité et aux problèmes liés à la modification des données lors de la capture des changements. Accélérez l'apport de données de haute qualité dans votre datalake et la rapidité avec laquelle les équipes peuvent exploiter ces données grâce à un service cloud sécurisé et évolutif.

Avantages

 

 

OUVERT & EXTENSIBLE

Delta Lake est un projet open source de la Linux Foundation. Les données sont stockées au format ouvert Apache Parquet, et sont donc lisibles par n'importe quel lecteur adapté. Les API sont ouvertes et compatibles avec Apache Spark™.
 

FIABILITÉ DES DONNÉES

Les données des datalakes sont souvent sujettes à des problèmes de qualité, issues d'un manque de contrôle sur les données ingérées. Delta Lake ajoute une couche de stockage aux datalakes pour contrôler la qualité de leur contenu, garantissant ainsi que ces derniers ne renferment que des données de haute qualité destinées aux consommateurs.
 

GESTION DU CYCLE DE VIE DES DONNÉES

Gérez l'évolution des enregistrements et des schémas à mesure que les besoins de l'entreprise progressent. Ne vous contentez pas d'une architecture lambda et profitez d'un traitement en batch ou en streaming véritablement unifié, qui utilise le même moteur, les mêmes API et le même code.

Fonctionnalités

 

Transactions ACID : les multiples pipelines de données sont capables de lire et d'écrire des données simultanément dans un datalake. Les transactions ACID garantissent l'intégrité des données car elles permettent de monter en série les opérations de lecture/écriture, et donc d'obtenir le plus haut niveau d'isolation possible. Pour en savoir plus, consultez Plongée dans Delta Lake : déchiffrer le journal des transactions.
 
Mises à jour et suppressions : Delta Lake fournit des API LMD pour fusionner, mettre à jour et supprimer des ensembles de données. Cela vous permet de vous conformer facilement au RGPD et au CCPA, mais aussi de simplifier la capture des données de modification.
 
Exécution de schémas : vous avez la possibilité d'indiquer un schéma et de forcer son application. Cette opération garantit que les types de données sont corrects et les colonnes requises bien présentes, évitant que des données de mauvaise qualité puissent entraîner une corruption des données. Pour de plus amples informations, consultez Plongée dans Delta Lake : évolution et exécution de schémas.
 
Voyage temporel (historique des versions) : les instantanés de données permettent aux développeurs d'accéder et de revenir à d'anciennes versions des données, que ce soit pour effectuer des audits des modifications, pour revenir à un état antérieur ou pour reproduire des expériences. Pour en savoir plus, consultez Présentation de Delta Lake Time Travel pour les datalakes à grande échelle.
 
Traitement évolutif des métadonnées : Delta Lake traite les métadonnées comme n'importe quel autre type de données pour tirer le meilleur parti de la puissance de traitement distribué de Spark. Résultat, Delta Lake peut gérer des tableaux de l'ordre du pétaoctet sur plusieurs milliards de partitions et de fichiers.
Open format : toutes les données de Delta Lake sont stockées au format Apache Parquet. Cela permet à Delta Lake de profiter de la compression efficace et des schémas de codage natifs chez Parquet.
 
Batch, source de streaming et récepteur unifiés : une table dans Delta Lake est tout à la fois un batch, une source de streaming et un récepteur de données. L'ingestion de données en streaming, le renvoi d'historiques par batch et les requêtes interactives fonctionnent tous sans effort supplémentaire.Évolution des schémas : le big data évolue en permanence. Delta Lake vous permet d’apporter des modifications à un schéma de tableau, et grâce à l'option d'application automatique, il n'est pas nécessaire de recourir à un langage de définition des données fastidieux.
 
Historique en vue d'un audit : le journal des transactions de Delta Lake enregistre les détails de chaque modification apportée aux données, fournissant un historique complet des modifications à des fins de conformité, d'audit et de reproduction.
 
100 % compatible avec l'API Apache Spark : les développeurs peuvent utiliser Delta Lake sur leurs pipelines de données existants. Très peu de changements sont nécessaires car celui-ci est entièrement compatible avec Spark, le moteur de traitement de big data le plus courant.
 
Consultez les actus sur nos produits publiées sur Azure Databricks et AWS pour découvrir nos dernières fonctionnalités.

À la place de parquet

dataframe
   .write
   .format("parquet")
   .save("/data")

…écrivez simplement delta

dataframe
   .write
   .format("delta")
   .save("/data")

Réseau d'ingestion de données

Des connecteurs natifs pour faciliter une ingestion fiable et rapide des données dans Delta Lake, depuis tous vos stockages de fichiers, applications et bases de données.

Comment ça marche

À la découverte de Delta Lake

Par Michael Armbrust, créateur de Delta Lake

Delta Lake est une couche de stockage open source qui repose sur votre stockage de fichiers datalake existant, comme par exemple AWS S3, Azure Data Lake Storage ou HDFS. Il utilise des fichiers Apache Parquet™ à versions pour stocker vos données. Delta Lake stocke également un journal des transactions pour garder une trace de toutes les validations (« commits ») visant à fournir des fonctionnalités étendues telles que les transactions ACID, la gestion des versions de données et l'historique en vue d'un audit. Pour accéder aux données, vous pouvez utiliser les API Spark ouvertes, n'importe lequel des différents connecteurs ou un lecteur Parquet pour déchiffrer les fichiers directement.