Revenir au contenu principal

Apache Spark™

Apache Spark est un moteur de unified analytics ultra-rapide pour le Big Data et le machine learning. Il a été initialement conçu à l'Université de Californie à Berkeley en 2009.

largest open source apache spark image

Le plus grand projet open-source de traitement de données

Depuis sa sortie, le moteur de unified analytics Apache Spark a connu une adoption rapide par les entreprises de nombreux secteurs. Des acteurs majeurs du monde de l'internet tels que Netflix, Yahoo et eBay ont déployé Spark à très grande échelle. Cela représente plusieurs pétaoctets de données sur des clusters de plus de 8 000 nœuds. Cette communauté open source est rapidement devenue la plus importante du monde du Big Data avec plus de 1 000 contributeurs provenant de plus de 250 organisations.

L'équipe à l'origine du projet de recherche Spark à l'UC Berkeley a fondé Databricks en 2013.

Apache Spark est 100 % open-source, hébergé par la Fondation Apache, indépendante de tout fournisseur. Chez Databricks, nous nous engageons pleinement dans l'entretien de ce modèle de développement ouvert. Main dans la main avec la communauté Spark, Databricks continue à contribuer massivement au projet Apache Spark, à la fois par le développement et en faisant la promotion de la communauté.

Qu'est-ce qu'Apache Spark? | Les avantages d'Apache Spark

Rapidité

Conçu de bout en bout dans une optique de performance, Spark peut s'avérer 100 fois plus rapide que Hadoop pour le traitement de données à grande échelle en exploitant le calcul en mémoire et d'autres optimisations. Spark est également très performant avec les données stockées sur disque. Il détient à l'heure actuelle le record du monde en matière de vitesse de tri à grande échelle de données sur disque.

Simplicité d'utilisation

Spark possède des API simples d'utilisation pour travailler sur de grands ensembles de données. Celles-ci comprennent notamment un ensemble de plus de 100 opérateurs pour la transformation de données et des API familières pour DataFrames permettant la manipulation de données semi-structurées.

Un moteur unifié

Spark est livré avec des bibliothèques haut niveau qui prennent en charge les requêtes SQL, les données en flux, le machine learning et le traitement de graphes. Ces bibliothèques standard permettent aux développeurs de gagner en productivité et peuvent se combiner facilement pour créer des flux de travail complexes.

Essayez gratuitement Apache Spark sur le cloud Databricks

Databricks Unified Analytics Platform offre une performance 5 fois plus élevée que la solution Spark open-source, des notebooks collaboratifs, des workflows intégrés et de la sécurité pour l'entreprise – le tout en une seule plateforme de cloud entièrement managée.

Le projet Apache Spark open source est téléchargeable ici.