Apache Spark

Apache Spark est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Il a initialement été conçu à l'Université de Californie à Berkeley en 2009.

Le plus grand projet open-source de traitement de données

Depuis sa sortie, Apache Spark, le moteur d'analyses unifiées, a connu une adoption rapide par les entreprises de divers secteurs. Des acteurs essentiels du monde de l'internet tels que Netflix, Yahoo et eBay ont déployé Spark à très grande échelle, traitant ensemble plusieurs peta-octets de données sur des clusters de plus de 8 000 nœuds. Cette communauté open-source est rapidement devenue la plus importante du monde du big data avec plus de 1 000 contributeurs provenant de plus de 250 organisations.
Spark – Apache Spark

L'équipe à l'origine du projet de recherche Spark à l'UC Berkeley a fondé Databricks en 2013.

Apache Spark est 100 % open-source, hébergé par la Fondation Apache, indépendante de tout fournisseur. Chez Databricks, nous nous engageons pleinement dans l'entretien de ce modèle de développement ouvert. Main dans la main avec la communauté Spark, Databricks continue à contribuer massivement au projet Apache Spark, à la fois par le développement et en faisant la promotion de la communauté.


Écosystème Apache Spark

Spark SQL + DataFrames

Données structurées : Spark SQL

De nombreux data scientists, analystes et plus généralement utilisateurs de business intelligence exploitent les requêtes SQL pour explorer des données. Spark SQL est un module Spark conçu pour le traitement de données structurées. Il apporte une couche d'abstraction en programmation appelée DataFrames et peut également faire office de moteur de requêtes SQL distribué. Il permet aux requêtes Hadoop Hive de s'exécuter 100 fois plus vite sur les déploiements et données existants, sans modification. Il apporte également un haut niveau d'intégration avec le reste de l'écosystème Spark (notamment en intégrant le traitement des requêtes SQL au machine learning).

Streaming

Analyses en streaming : Spark Streaming

De nombreuses applications ont besoin de pouvoir traiter et analyser non seulement des données en batch, mais aussi des flux de nouvelles données en temps réel. Fonctionnant sur une base Spark, Spark Streaming permet de puissantes applications analytiques et interactives, travaillant à la fois sur des données en flux ou historiques tout en héritant de la simplicité d'utilisation et de la tolérance de panne de Spark. Il s'intègre parfaitement avec une large gamme de sources de données bien connues, telles que HDFS, Flume, Kafka et Twitter.

MLlib Machine learning

Machine learning : MLlib

Le machine learning est rapidement devenu une pièce maîtresse pour l'extraction d'informations exploitables dans un contexte big data. Conçu sur une base Spark, MLlib est une bibliothèque de machine learning adaptable à toutes les échelles qui fournit des algorithmes de grande qualité (notamment avec plusieurs itérations pour gagner en précision) extrêmement rapides (jusqu'à 100 fois plus rapides que MapReduce). Cette bibliothèque est utilisable en java, Scala et Python sous forme d'applications Spark, si bien que vous pouvez l'inclure dans des workflows complets.

GraphX Calculs de graphes

Calculs de graphes : GraphX

GraphX est un moteur de calculs de graphes conçu sur la base de Spark. Il permet aux utilisateurs de concevoir, transformer et raisonner sur des données structurées en graphes, de manière interactive et à toute échelle. Il est livré avec une bibliothèque d'algorithmes communs.

API Spark Core

Exécution générale : Spark Core

Spark Core est le moteur d'exécution sous-jacent de la plateforme Spark, sur lequel reposent toutes les autres fonctionnalités. Il apporte des capacités de calcul en mémoire pour plus de rapidité, un modèle d'exécution généralisé capable de prendre en charge une vaste gamme d'applications, et des API Python, Scala et java pour un développement facilité.

R
SQL
Python
Scala
Java

Qu'est-ce qu'Apache Spark? | Les avantages d'Apache Spark

Rapidité

Conçu de bout en bout dans une optique de performance, Spark peut s'avérer 100 fois plus rapide que Hadoop pour le traitement de données à grande échelle en exploitant le calcul en mémoire et d'autres optimisations. Spark est également rapide sur les données stockées sur disque ; il détient à l'heure actuelle le record du monde en vitesse de tri à grande échelle de données sur disque.

Simplicité d'utilisation

Spark possède des API simples d'utilisation pour travailler sur de grands ensembles de données. Celles-ci comprennent notamment un ensemble de plus de 100 opérateurs pour la transformation de données et des API familières pour DataFrames permettant la manipulation de données semi-structurées.

Un moteur unifié

Spark est livré avec des bibliothèques haut niveau qui prennent en charge les requêtes SQL, les données en flux, le machine learning et le traitement de graphes. Ces bibliothèques standard permettent aux développeurs de gagner en productivité et peuvent se combiner facilement pour créer des flux de travail complexes.

Essayez gratuitement Apache Spark sur le cloud Databricks

Databricks Unified Analytics Platform offre une performance 5 fois plus élevée que la solution Spark open-source, des notebooks collaboratifs, des workflows intégrés et de la sécurité pour l'entreprise – le tout en une seule plateforme de cloud entièrement managée.

Essayer Databricks

Le projet Apache Spark open-source est téléchargeable ici.