Bienvenue

Ce guide d'apprentissage à votre rythme correspond au didacticiel « Hello World » pour l'utilisation d'Apache Spark sous Databricks. Dans les modules suivants du didacticiel, vous allez apprendre les bases de la création de tâches Spark, le chargement de données et le travail avec celles-ci. Nous allons également introduire les bases des algorithmes de machine learning et du travail avec les données en flux. Databricks vous permet de commencer immédiatement à écrire des requêtes Spark, pour que vous puissiez vous concentrer sur les problèmes de données proprement dites.

Naviguer dans le didacticiel Apache Spark

Placez le curseur devant la barre de navigation ci-dessus pour voir les six étapes permettant de démarrer avec Apache Spark sous Databricks. Ce guide vous fournira d'abord un aperçu rapide de la manière d'utiliser Apache Spark en version open-source puis de tirer profit de ces connaissances pour apprendre à utiliser les DataFrames avec Spark SQL. Nous allons également aborder comment utiliser les ensembles de données, et comment les ensembles de données et les DataFrames sont désormais unifiés. Ce guide permet également de se familiariser avec le machine learning et le streaming pour que vous puissiez facilement les utiliser sur vos problèmes à base de données. Chacun de ces modules se réfère à des scénarios d'utilisation indépendants – notamment dans le domaine de l'IoT et de l'immobilier – avec leurs propres notebooks et ensembles de données pour que vous puissiez vous lancer si vous vous sentez à l'aise.

Introduction à Apache Spark

spark-logo-trademark

Apache Spark est un moteur de traitement open-source puissant conçu pour offrir vitesse, simplicité d'utilisation et analyses sophistiquées.

Spark SQL + DataFrames

Données structurées : Spark SQL

De nombreux data scientists, analystes et plus généralement utilisateurs de business intelligence exploitent les requêtes SQL pour explorer des données. Spark SQL est un module Spark conçu pour le traitement de données structurées. Il apporte une couche d'abstraction en programmation appelée DataFrames et peut également faire office de moteur de requêtes SQL distribué. Il permet aux requêtes Hadoop Hive de s'exécuter 100 fois plus vite sur les déploiements et données existants, sans modification. Il apporte également un haut niveau d'intégration avec le reste de l'écosystème Spark (notamment en intégrant le traitement des requêtes SQL au machine learning).

Streaming

Analyses en streaming : Spark Streaming

De nombreuses applications ont besoin de pouvoir traiter et analyser non seulement des données en batch, mais aussi des flux de nouvelles données en temps réel. Fonctionnant sur une base Spark, Spark Streaming permet de puissantes applications analytiques et interactives, travaillant à la fois sur des données en flux ou historiques tout en héritant de la simplicité d'utilisation et de la tolérance de panne de Spark. Il s'intègre parfaitement avec une large gamme de sources de données bien connues, telles que HDFS, Flume, Kafka et Twitter.

MLlib Machine learning

Machine learning : MLlib

Le machine learning est rapidement devenu une pièce maîtresse pour l'extraction d'informations exploitables dans un contexte big data. Conçu sur une base Spark, MLlib est une bibliothèque de machine learning adaptable à toutes les échelles qui fournit des algorithmes de grande qualité (notamment avec plusieurs itérations pour gagner en précision) extrêmement rapides (jusqu'à 100 fois plus rapides que MapReduce). Cette bibliothèque est utilisable en java, Scala et Python sous forme d'applications Spark, si bien que vous pouvez l'inclure dans des workflows complets.

GraphX Calculs de graphes

Calculs de graphes : GraphX

GraphX est un moteur de calculs de graphes conçu sur la base de Spark. Il permet aux utilisateurs de concevoir, transformer et raisonner sur des données structurées en graphes, de manière interactive et à toute échelle. Il est livré avec une bibliothèque d'algorithmes communs.

API Spark Core

Exécution générale : Spark Core

Spark Core est le moteur d'exécution sous-jacent de la plateforme Spark, sur lequel reposent toutes les autres fonctionnalités. Il apporte des capacités de calcul en mémoire pour plus de rapidité, un modèle d'exécution généralisé capable de prendre en charge une vaste gamme d'applications, et des API Python, Scala et java pour un développement facilité.

R
SQL
Python
Scala
Java

« Chez Databricks, nous ne ménageons pas nos efforts pour rendre Spark plus simple que jamais à utiliser, par notre travail à la fois sur le code de Spark et sur les outils qui l'accompagnent. La totalité de notre travail sur Spark est open-source et va directement chez Apache. »

Matei Zaharia, vice-président d'Apache Spark,
cofondateur et responsable de la technologie de Databricks

Pour plus d'informations sur Spark, référez-vous également à :

Obtenir Databricks

Databricks is a Unified Analytics Platform on top of Apache Spark that accelerates innovation by unifying data science, engineering and business. With our fully managed Spark clusters in the cloud, you can easily provision clusters with just a few clicks. Databricks incorporates an integrated workspace for exploration and visualization so users can learn, work, and collaborate in a single, easy to use environment. You can easily schedule any existing notebook or locally developed Spark code to go from prototype to production without re-engineering.

S'inscrire maintenant

De plus, Databricks comprend :

  • Notre formation en ligne primée ouverte à tous, « Introduction to Big Data with Apache Spark» à laquelle se sont inscrits 76 000 participants à ce jour
  • Formations en ligne ouvertes à tous (Massive Open Online Course, ou MOOC), comprenant la formation au machine learning avec Apache Spark
  • Exemples de pipelines d'analyses en R et Scala

Find all of our available courses here at https://academy.databricks.com

Ressources supplémentaires

Spark: Better with Delta Lake

This series of tech talk tutorials takes you through the technology foundation of Delta Lake (Apache Spark) and the capabilities Delta Lake adds to it to power cloud data lakes.

Regarder