image d'arrière-plan

Delta Live Tables

Ingénierie logicielle moderne pour le traitement ETL

S'inscrireregarder une démo

Qu'est-ce que Delta Live Tables ?

Delta Live Tables (DLT) est le premier framework ETL qui utilise une approche déclarative simple afin de créer des pipelines de données fiables et de gérer automatiquement votre infrastructure à l'échelle. Ainsi, les data analysts et ingénieurs passent moins de temps sur les outils et peuvent se concentrer sur la valorisation des données. Grâce à DLT, les ingénieurs peuvent traiter leurs données comme du code et appliquer les bonnes pratiques modernes de génie logiciel, telles que les tests, le traitement des erreurs, le monitoring et la documentation, afin de déployer des pipelines fiables à l'échelle.

image d'arrière-plan

Accélérer le développement ETL

DLT permet d'appliquer en mode natif les bonnes pratiques de l'ingénierie logicielle moderne, en vous donnant la possibilité de développer dans des environnements distincts de la production, de tester facilement avant le déploiement, de déployer et de gérer des environnements à l'aide de la paramétrisation, de réaliser des tests unitaires et de fournir de la documentation. Par conséquent, vous pouvez simplifier le développement, les tests, le déploiement, les opérations et le monitoring des pipelines ETL avec des constructions de premier ordre. Cela vous permet d'exprimer pleinement les transformations, l'approche CI / CD, les SLA et les attentes en matière de qualité, et de gérer en toute transparence les batchs et le streaming dans une seule API.

Gérez automatiquement votre infrastructure

DLT a été conçue de A à Z pour gérer automatiquement votre infrastructure et automatiser des activités complexes et chronophages. DLT met automatiquement à l'échelle l'infrastructure de calcul en permettant à l'utilisateur de définir le nombre minimum et maximum de cas et permet de dimensionner le cluster en fonction de l'utilisation du cluster. Par ailleurs, les tâches telles que l'orchestration, la gestion des erreurs et la restauration sont toutes effectuées automatiquement — comme l'optimisation des performances. Avec DLT, vous pouvez vous concentrer sur la transformation des données plutôt que sur les opérations.

Ayez confiance en vos données

Fournissez des données fiables avec des contrôles qualité, des tests, un monitoring et une application intégrés pour garantir une BI, une data science et un ML précis et utiles. DLT facilite la création de sources de données fiables en incluant une prise en charge de premier ordre des outils de gestion et de monitoring de la qualité des données. Elle permet d'empêcher les données de mauvaise qualité de se diriger vers les tableaux, de suivre la qualité des données dans le temps et de fournir des outils de dépannage des données de mauvaise qualité avec une observabilité granulaire du pipeline. Vous obtenez ainsi un diagramme de lignage très fidèle de votre pipeline, vous pouvez suivre les dépendances et agréger les mesures de qualité des données pour l'ensemble de vos pipelines.

Simplifiez le batch et le streaming

Optimisez votre rentabilité en fournissant des données actualisées et auto-optimisées pour les applications et en créant des pipelines de données avec mise à l'échelle automatique pour le traitement batch ou streaming. Contrairement à d'autres produits qui vous obligent à gérer les charges de travail streaming et batch séparément, DLT prend en charge n'importe quel type de charge de travail de données avec une seule API afin que les ingénieurs data et les data analysts puissent créer des pipelines de données à l'échelle du cloud plus rapidement et sans avoir besoin de compétences avancées en data engineering.

Cas d’utilisation

Répondre aux exigences règlementaires

Capturez automatiquement toutes les informations relatives à votre table à des fins d'analyse et d'audit, grâce au journal des évènements. Comprenez comment les données circulent au sein de votre organisation et répondez aux exigences de conformité.

Simplifier le déploiement et les tests des pipelines de données

Grâce à l'isolation et à la mise à jour de différentes copies de données par le biais d'une base de code unique, il est possible de capturer et d'utiliser les informations relatives au lignage des données afin de les maintenir à jour en tout lieu. Ainsi, le même ensemble de définitions de requêtes peut être exécuté au cours des phases de développement, de pré-production et de production.

Réduisez la complexité opérationnelle grâce à un traitement unifié par batch et en streaming

Créez et exécutez des pipelines par batch et en streaming en un seul endroit avec des paramètres de rafraîchissement contrôlables et automatisés, ce qui permet de gagner du temps et de réduire la complexité opérationnelle.

« Chez ADP, nous sommes en train de migrer nos données de gestion des ressources humaines vers un magasin de données intégré au lakehouse. Delta Live Tables a permis à notre équipe d'intégrer des contrôles qualité, et grâce aux API déclaratives, à la prise en charge batch et en temps réel via SQL, notre équipe a pu gagner du temps et de l'énergie dans la gestion de nos données. »

– Jack Berkowitz, CDO, ADP

« Chez Shell, nous regroupons toutes les données de nos capteurs dans un magasin de données intégré. Delta Live Tables a aidé nos équipes à gagner du temps et à gérer les données à [l'échelle de plusieurs milliers de milliards d'enregistrements], tout en améliorant continuellement nos capacités d'ingénierie de l'IA. Grâce à cette capacité, qui vient s'ajouter à l'architecture lakehouse existante, Databricks bouleverse les marchés de l'ETL et des entrepôts de données, ce qui est majeur pour des entreprises comme la nôtre. Nous sommes ravis de continuer à travailler avec Databricks en tant que partenaire innovant.

– Dan Jeavons, Directeur général — Data Science, Shell

« Delta Live Tables favorise la collaboration et supprime les blocages en matière de ressources de data engineering, ce qui permet à nos équipes d'analytique et de BI de se servir elles-mêmes, sans avoir besoin de connaître Spark ou Scala. L'un de nos data analysts — sans jamais avoir utilisé Databricks ou Spark auparavant — a pu créer un pipeline DLT pour transformer les flux de fichiers sur S3 en ensembles de données exploratoires utilisables en quelques heures, principalement à l'aide de SQL. »

– Christina Taylor – Data Engineering, Bread Finance

Ressources

Technical Guide

Webinaires