Apache Spark™
Depuis sa sortie, Apache Spark, le moteur d'analyses unifiées, a connu une adoption rapide par les entreprises de divers secteurs. Des acteurs essentiels du monde de l'internet tels que Netflix, Yahoo et eBay ont déployé Spark à très grande échelle, traitant ensemble plusieurs peta-octets de données sur des clusters de plus de 8 000 nœuds. Cette communauté open-source est rapidement devenue la plus importante du monde du big data avec plus de 1 000 contributeurs provenant de plus de 250 organisations.
Apache Spark est 100 % open-source, hébergé par la Fondation Apache, indépendante de tout fournisseur. Chez Databricks, nous nous engageons pleinement dans l'entretien de ce modèle de développement ouvert. Main dans la main avec la communauté Spark, Databricks continue à contribuer massivement au projet Apache Spark, à la fois par le développement et en faisant la promotion de la communauté.
De nombreux data scientists, analystes et plus généralement utilisateurs de business intelligence exploitent les requêtes SQL pour explorer des données. Spark SQL est un module Spark conçu pour le traitement de données structurées. Il apporte une couche d'abstraction en programmation appelée DataFrames et peut également faire office de moteur de requêtes SQL distribué. Il permet aux requêtes Hadoop Hive de s'exécuter 100 fois plus vite sur les déploiements et données existants, sans modification. Il apporte également un haut niveau d'intégration avec le reste de l'écosystème Spark (notamment en intégrant le traitement des requêtes SQL au machine learning).
De nombreuses applications ont besoin de pouvoir traiter et analyser non seulement des données en batch, mais aussi des flux de nouvelles données en temps réel. Fonctionnant sur une base Spark, Spark Streaming permet de puissantes applications analytiques et interactives, travaillant à la fois sur des données en flux ou historiques tout en héritant de la simplicité d'utilisation et de la tolérance de panne de Spark. Il s'intègre parfaitement avec une large gamme de sources de données bien connues, telles que HDFS, Flume, Kafka et Twitter.
Le machine learning est rapidement devenu une pièce maîtresse pour l'extraction d'informations exploitables dans un contexte big data. Conçu sur une base Spark, MLlib est une bibliothèque de machine learning adaptable à toutes les échelles qui fournit des algorithmes de grande qualité (notamment avec plusieurs itérations pour gagner en précision) extrêmement rapides (jusqu'à 100 fois plus rapides que MapReduce). Cette bibliothèque est utilisable en java, Scala et Python sous forme d'applications Spark, si bien que vous pouvez l'inclure dans des workflows complets.
GraphX est un moteur de calculs de graphes conçu sur la base de Spark. Il permet aux utilisateurs de concevoir, transformer et raisonner sur des données structurées en graphes, de manière interactive et à toute échelle. Il est livré avec une bibliothèque d'algorithmes communs.
Spark Core est le moteur d'exécution sous-jacent de la plateforme Spark, sur lequel reposent toutes les autres fonctionnalités. Il apporte des capacités de calcul en mémoire pour plus de rapidité, un modèle d'exécution généralisé capable de prendre en charge une vaste gamme d'applications, et des API Python, Scala et java pour un développement facilité.
Conçu de bout en bout dans une optique de performance, Spark peut s'avérer 100 fois plus rapide que Hadoop pour le traitement de données à grande échelle en exploitant le calcul en mémoire et d'autres optimisations. Spark est également rapide sur les données stockées sur disque ; il détient à l'heure actuelle le record du monde en vitesse de tri à grande échelle de données sur disque.
Spark possède des API simples d'utilisation pour travailler sur de grands ensembles de données. Celles-ci comprennent notamment un ensemble de plus de 100 opérateurs pour la transformation de données et des API familières pour DataFrames permettant la manipulation de données semi-structurées.
Spark est livré avec des bibliothèques haut niveau qui prennent en charge les requêtes SQL, les données en flux, le machine learning et le traitement de graphes. Ces bibliothèques standard permettent aux développeurs de gagner en productivité et peuvent se combiner facilement pour créer des flux de travail complexes.
Databricks Unified Analytics Platform offre une performance 5 fois plus élevée que la solution Spark open-source, des notebooks collaboratifs, des workflows intégrés et de la sécurité pour l'entreprise – le tout en une seule plateforme de cloud entièrement managée.
Essayer DatabricksLe projet Apache Spark open-source est téléchargeable ici.