Les différentes étapes

Votre data warehouse
n'est plus adapté au monde d'aujourd'hui

Au même titre que le CD, l'appareil photo jetable, la disquette et la plupart des innovations qui ont plus de 40 ans, le data warehouse a eu ses heures de gloire. Mais de nouveaux cas d'usage ont engendré l'apparition de nouvelles technologies. Les CD ne peuvent pas diffuser de la musique en continu. Les appareils photo argentiques ne permettent pas de partager des photos. Les disquettes ne peuvent pas rivaliser avec un stockage cloud infini. Et les data warehouses ne peuvent pas faire de l'IA.

Il est temps d'adopter une approche simplifiée

L'IA est une priorité pour toutes les organisations. Mais l'infrastructure existante, complexe et dépassée, ne peut pas tenir les promesses de l'IA. Il est temps qu'une nouvelle architecture de données réponde à vos besoins aujourd'hui et qu'elle soit prête pour l'avenir.

Découvrir
Lakehouse
Avènement du Lakehouse

C'est une nouvelle ère de données et d'IA qui s'ouvre

Le data lakehouse est une architecture de données ouverte qui regroupe sur une plateforme le meilleur des data warehouses et des data lakes.

Désormais, vous pouvez stocker toutes vos données — qu'elles soient structurées, semi-structurées ou non structurées — dans votre data lake ouvert, tout en bénéficiant de la qualité, des performances, de la sécurité et de la gouvernance des données qu'un data warehouse est censé fournir. Ainsi le lakehouse est la seule architecture de données qui prend en charge sur une seule plateforme la Business Intelligence, l'analytique SQL, les applications de données en temps réel, la data science et le machine learning.

Anatomy d'un Lakehouse

Une seule plateforme pour tous les cas d'usage

Delta Lake

Les ingrédients essentiels

Delta Lake est un projet open source qui assure la fiabilité, la sécurité et la performance de votre data lake, ce qui est essentiel à l'ajout d'une architecture lakehouse aux systèmes de stockage existants tels que Amazon S3, Azure Data Lake Store et Google Cloud Storage.

Delta Lake est stocké dans un format de données ouvert, ce qui vous permet d'éviter le verrouillage des données par des formats propriétaires et d'accéder à un vaste écosystème open source. Aujourd'hui, des milliers d'entreprises traitent des exaoctets de données chaque mois avec Delta Lake.


En savoir plus sur Delta Lake →

hex-bg

Performances du lakehouse

Les lakehouses ont plus de fonctionnalités que les warehouses

Lakehouse va au-delà des limites du data warehouse car il est conçu pour gérer tous les types de données et prendre en charge à la fois les charges de travail du data warehouse traditionnel et le machine learning en mode natif. Il ajoute toutes ces fonctionnalités à votre data lake existant, ce qui permet de créer un système ouvert unique pour à la fois gérer l'ensemble de vos données et prendre en charge tous les cas d'usage.

Data Warehouse Lakehouse
Formats de données
Formats de données Fermé Ouvert
Types de données
Types de données Structuré* Tous les types de données
Scalability
Scalability Limité** Hautement évolutif
Cost
Cost $$$ $
Cas d’utilisation
Cas d’utilisation BI, SQL BI, SQL, ML, applications en temps réel
Accès aux données
Accès aux données Réservé au SQL Open APIs for direct access to files with SQL, R, Python and other languages
Reliability
Reliability Des données fiables et de haute qualité avec des transactions ACID Des données fiables et de haute qualité avec des transactions ACID
Gouvernance
Gouvernance Fine-grained security and governance for row/columnar level for tables Fine-grained security and governance for row/columnar level for tables
Performance
Performance High High

*Prise en charge limitée des données semi-structurées
**Le coût de la mise à l'échelle est prohibitif

Le père de l'entreposage des données est bien d'accord.

Recevez gratuitement un exemplaire du nouveau livre de Bill Inmon, Building the Data Lakehouse.

Couverture du livre

Lakehouse transforme votre data lake

Les Lakehouses permettent de surmonter les problèmes fondamentaux qui ont transformé les data lakes en data swamps. Ils apportent de la qualité à votre data lake en ajoutant des fonctionnalités clés d'entreposage de données telles que les transactions, les schémas et la gouvernance. Par ailleurs, ils exploitent différentes techniques d'optimisation des performances pour permettre des analytiques rapides. Grâce à ces optimisations de la gestion des données et des performances du data lake ouvert, les lakehouses peuvent, en mode natif, prendre en charge des applications de BI et de ML.

Data Lake Lakehouse
Formats de données
Formats de données Ouvert Ouvert
Types de données
Types de données Tous les types de données Tous les types de données
Scalability
Scalability Hautement évolutif Hautement évolutif
Cost
Cost $ $
Cas d’utilisation
Cas d’utilisation ML BI, SQL, ML, applications en temps réel
Accès aux données
Accès aux données Hautement évolutif Open APIs for direct access to files with SQL, R, Python and other languages
Reliability
Reliability Low quality, data swamp Des données fiables et de haute qualité avec des transactions ACID
Gouvernance
Gouvernance Mauvaise gouvernance car la sécurité doit être appliquée aux fichiers Fine-grained security and governance for row/columnar level for tables
Performance
Performance Low High

Le père de l'entreposage des données est bien d'accord.

Recevez gratuitement un exemplaire du nouveau livre de Bill Inmon, Building the Data Lakehouse.

Couverture du livre

Le lakehouse de Databricks

La première et la seule plateforme de lakehouse au monde dans le cloud

Fournie et gérée en tant que service sur AWS, Microsoft Azure ou encore Google Cloud, La plateforme Lakehouse de Databricks met à disposition toutes les données de votre data lake pour un nombre illimité de cas d'usage data-driven.

Les ingénieurs en données peuvent créer des pipelines de données rapides et fiables. Les business analysts peuvent faire de la BI en exécutant des requêtes SQL plus rapidement que la plupart des data warehouses. Les data scientists peuvent rationaliser les MLOps. Et lorsque toutes vos équipes de données sont sur une plateforme commune, vous pouvez réduire considérablement les coûts d'infrastructure, augmenter la productivité des équipes de données et accélérer l'innovation.

BI et SQL
L'analytique directement sur votre data lake

Databricks apporte une analytique de données à votre data lake, fournissant des performances de data warehouse aux coûts d'un data lake.
Grâce à l'utilisation de standards open source permettant d'éviter le verrouillage des données, la plateforme Lakehouse de Databricks offre la fiabilité, la qualité et la performance dont les data lakes sont privés dans leur forme native ainsi qu'un rapport prix / performance 6 fois supérieur à celui des data warehouses cloud traditionnels.

Data
Engineering
Des données récentes et fiables en toute simplicité

Databricks fournit une solution de data engineering de bout en bout — ingestion, traitement et planification — qui automatise directement sur un data lake la complexité de la création et de la maintenance de pipelines et de l'exécution des charges de travail ETL. Les ingénieurs en données peuvent alors se concentrer sur la qualité et la fiabilité pour obtenir de précieux insights.

Traitement des flux
Traitement en continu simple, évolutif et tolérant aux erreurs

Avec Databricks, les équipes de données peuvent extraire des insights exploitables à partir de données illimitées avec un traitement ininterrompu dans le but de fournir des garanties de service à un coût largement inférieur. L'utilisation de Databricks pour des cas d'usage en streaming permet aux équipes de données de créer des applications data-driven en temps réel à faible latence, évolutives et tolérantes aux erreurs.

Data Science and ML
Cycle de vie complet du machine learning

Databricks offre une plateforme complète et ouverte pour la data science et le machine learning. En offrant un accès à des pipelines de données de haute qualité et très performants, ainsi qu'à des capacités avancées de machine learning, Databricks permet aux équipes de données et de ML de collaborer sur une plateforme unifiée, accélérant ainsi le cycle de vie complet du machine learning, de l'engineering à la production des fonctionnalités.

Sécurité et administration communes
Ouvrir les logos Data Lake
Sécurité et administration communes

Databricks protège vos données à l'aide de contrôles d'accès ultra-précis et de la capacité d'étendre facilement la sécurité grâce à des politiques de sécurité cloud-natives et des systèmes de gestion des identités existants pour créer des workspaces privés, conformes et isolés. Les administrateurs peuvent facilement gérer l'expérience de la plateforme de bout en bout et contrôler les dépenses dans tous les workspaces.

Traitement, gestion et gouvernance des données
Ouvrir les logos Data Lake
Traitement, gestion et gouvernance des données

Grâce à un ETL automatisé et fiable, à un partage de données ouvert et sécurisé ainsi qu'à une approche uniformisée de la gouvernance qui s'étend aux fournisseurs de cloud, Databricks rationalise la gestion de données et forme la base d'un lakehouse rentable et ultra-évolutif.

Ouvrir Data Lake
Ouvrir les logos Data Lake
Des données fiables et de haute qualité

Votre data lake contient déjà la grande majorité de vos données structurées, semi-structurées et non structurées. Associez désormais l'ouverture et la flexibilité de votre data lake à une fiabilité et une qualité solides pour répondre aux besoins de tous les cas d'usage analytiques à grande échelle.

Dévouvrir

Passez la souris pour explorer les couches d'un lakehouse construit sur Databricks.

L'analytique directement sur votre data lake

Databricks apporte une analytique de données à votre data lake, fournissant des performances de data warehouse aux coûts d'un data lake.
Grâce à l'utilisation de standards open source permettant d'éviter le verrouillage des données, la plateforme Lakehouse de Databricks offre la fiabilité, la qualité et la performance dont les data lakes sont privés dans leur forme native ainsi qu'un rapport prix / performance 6 fois supérieur aux data warehouses de cloud traditionnelles.

L'analytique directement sur votre data lake

Databricks apporte une analytique de données à votre data lake et fournit des performances de data warehouse aux coûts d'un data lake.
Grâce à l'utilisation de standards open source permettant d'éviter le verrouillage des données, la plateforme Lakehouse de Databricks offre la fiabilité, la qualité et la performance dont les data lakes sont privés dans leur forme native ainsi qu'un rapport prix / performance 6 fois supérieur à celui des data warehouses cloud traditionnels.

Des données récentes et fiables en toute simplicité

Databricks fournit une solution de data engineering de bout en bout — ingestion, traitement et planification — qui automatise directement sur un data lake la complexité de la création et de la maintenance de pipelines et de l'exécution des charges de travail ETL. Les ingénieurs en données peuvent alors se concentrer sur la qualité et la fiabilité pour obtenir de précieux insights.

Avec Databricks, les équipes de données peuvent extraire des insights exploitables à partir de données illimitées avec un traitement ininterrompu dans le but de fournir des garanties de service à un coût largement inférieur. L'utilisation de Databricks pour des cas d'usage en streaming permet aux équipes de données de créer des applications data-driven en temps réel à faible latence, évolutives et tolérantes aux erreurs.

Cycle de vie complet du machine learning

Databricks offre une plateforme complète et ouverte pour la data science et le machine learning. En offrant un accès à des pipelines de données de haute qualité et très performants, ainsi qu'à des capacités avancées de machine learning, Databricks permet aux équipes de données et de ML de collaborer sur une plateforme unifiée, accélérant ainsi le cycle de vie complet du machine learning, de l'engineering à la production des fonctionnalités.

Delta Lake Databricks protège vos données à l'aide de contrôles d'accès ultra-précis et de la capacité d'étendre facilement la sécurité grâce à des politiques de sécurité cloud-natives et des systèmes de gestion des identités existants pour créer des workspaces privés, conformes et isolés. Les administrateurs peuvent facilement gérer l'expérience de la plateforme de bout en bout et contrôler les dépenses dans tous les workspaces.

Delta LakeGrâce à un ETL automatisé et fiable, à un partage de données ouvert et sécurisé ainsi qu'à une approche uniformisée de la gouvernance qui s'étend aux fournisseurs de cloud, Databricks rationalise la gestion de données et forme la base d'un lakehouse rentable et ultra-évolutif.

Données fiables et de haute qualitéVotre data lake contient déjà la grande majorité de vos données structurées, semi-structurées et non structurées. Associez désormais l'ouverture et la flexibilité de votre data lake à une fiabilité et une qualité solides pour répondre aux besoins de tous les cas d'usage analytiques à grande échelle.
Le succès dans le monde réel

Les plus grandes entreprises du monde sont en train de passer au lakehouse