Obtenez un aperçu du nouvel ebook d'O'Reilly pour bénéficier des conseils pas à pas dont vous avez besoin pour commencer à utiliser Delta Lake.
Dans le cadre de notre Meetup en ligne Data + AI, nous avons exploré des sujets allant de la génomique (avec des invités de Regeneron) aux pipelines de machine learning et au ML accéléré par GPU, en passant par l'optimisation des performances de Tableau. L'un des principaux sujets a été l'exploration du Lakehouse.
L'essor de l'architecture Lakehouse repose sur des innovations technologiques qui permettent au data lake de prendre en charge les transactions ACID et d'autres fonctionnalités des workloads des data warehouses traditionnels.
La série de tech talks Getting Started with Delta Lake vous présente les fondements technologiques de Delta Lake (Apache Spark™), la création de pipelines de données hautement évolutifs, la gestion de charges de travail mixtes streaming/batch, l'utilisation de Delta Lake et MLflow en Data Science, et vous fait même découvrir les coulisses et les origines du projet avec les ingénieurs de Delta Lake.
Apache Spark est le framework de traitement dominant pour le big data. Delta Lake ajoute de la fiabilité à Spark afin que vos initiatives d'analytique et de machine learning aient un accès facile à des données fiables et de qualité, stockées dans des stockages d'objets cloud à faible coût tels qu'AWS S3, Azure Storage et Google Cloud Storage. Dans cette session, vous découvrirez comment utiliser Delta Lake pour améliorer la fiabilité des données de vos data lakes.
Une architecture de pipeline d'ingénierie des données courante utilise des tables qui correspondent à différents niveaux de qualité, ajoutant progressivement de la structure aux données : ingestion des données (tables « Bronze »), Transformation/ingénierie des fonctionnalités (tables « Silver ») et tables d'agrégation/entraînement ou prédiction du machine learning (tables « Gold »). Ensemble, nous appelons ces tables une architecture « multi-hop ». Elle permet aux data engineers de créer un pipeline qui commence avec des données brutes en tant que « source de vérité unique » à partir de laquelle tout découle. Dans cette session, vous découvrirez l'architecture des pipelines de Data Engineering, leurs scénarios et bonnes pratiques, la manière dont Delta Lake améliore ces pipelines, et la facilité avec laquelle vous pouvez l'adopter pour construire les vôtres.
L'architecture Lambda est une technique populaire où les enregistrements sont traités en parallèle par un système de traitement par lots et un système de streaming. Les résultats sont ensuite combinés au moment de la query pour fournir une réponse complète. Avec l'arrivée de Delta Lake, nous voyons beaucoup de nos clients adopter un modèle simple de flux de données continu pour traiter les données à mesure qu'elles arrivent. Nous appelons cette architecture l'« Architecture Delta ». Dans cette session, nous couvrons les principaux goulots d'étranglement liés à l'adoption d'un modèle de flux de données continu et la manière dont l'Architecture Delta résout ces problèmes.
Lorsqu'il s'agit de planifier des initiatives de data science, il faut adopter une vision globale de l'ensemble du domaine de l'analytique des données. La Data Engineering est un facteur clé pour la Data Science qui aide à fournir des données fiables et de qualité en temps voulu. Dans cette session, vous découvrirez le cycle de vie de la Data Science, les principes clés de l'ingénierie des données moderne, comment Delta Lake peut vous aider à préparer des données fiables pour l'analytique, la facilité avec laquelle vous pouvez adopter Delta Lake pour alimenter votre data lake, et comment intégrer Delta Lake à votre infrastructure de données pour optimiser la Data Science.
Denny Lee, Developer Advocate, s'entretient avec Burak Yavuz, Software Engineer chez Databricks, pour en savoir plus sur le processus décisionnel de l'équipe Delta Lake et les raisons pour lesquelles ils ont conçu, architecturé et implémenté l'architecture telle qu'elle est aujourd'hui. Dans cette session, vous découvrirez les défis techniques rencontrés par l'équipe, comment ils ont été résolus et quels sont leurs projets pour l'avenir.
Commencez à remplir votre Delta Lake dès aujourd'hui en regardant cette série complète.
Si vous souhaitez approfondir vos connaissances sur Delta Lake, regardez notre série de tech talks Diving into Delta Lake. L'équipe de Data Engineering de Delta Lake, notamment Burak Yavuz, Andrea Neumann, Tathagata « TD » Das et le Developer Advocate Denny Lee, vous guidera dans la découverte de l'implémentation interne de Delta Lake.
Si vous souhaitez être informé des futurs meetups en ligne, rejoignez notre Data + AI Online Meetup sur meetup.com.

Plongée au cœur de Delta Lake
Plongez au cœur des composants internes de Delta Lake, une technologie open source populaire pour des data lakes plus fiables.
Produto
June 12, 2024/11 min de leitura

