Apache Spark™

Apache Spark est un moteur de unified analytics ultra-rapide pour le Big Data et le machine learning. Il a été initialement conçu à l'Université de Californie à Berkeley en 2009.

Le plus grand projet open-source de traitement de données

Depuis sa sortie, le moteur de unified analytics Apache Spark a connu une adoption rapide par les entreprises de nombreux secteurs. Des acteurs majeurs du monde de l'internet tels que Netflix, Yahoo et eBay ont déployé Spark à très grande échelle. Cela représente plusieurs pétaoctets de données sur des clusters de plus de 8 000 nœuds. Cette communauté open source est rapidement devenue la plus importante du monde du Big Data avec plus de 1 000 contributeurs provenant de plus de 250 organisations.

L'équipe à l'origine du projet de recherche Spark à l'UC Berkeley a fondé Databricks en 2013.

Apache Spark est 100 % open-source, hébergé par la Fondation Apache, indépendante de tout fournisseur. Chez Databricks, nous nous engageons pleinement dans l'entretien de ce modèle de développement ouvert. Main dans la main avec la communauté Spark, Databricks continue à contribuer massivement au projet Apache Spark, à la fois par le développement et en faisant la promotion de la communauté.

Regarder la vidéo

What is Apache Spark - Benefits of Apache Spark

Speed

Engineered from the bottom-up for performance, Spark can be 100x faster than Hadoop for large scale data processing by exploiting in memory computing and other optimizations. Spark is also fast when data is stored on disk, and currently holds the world record for large-scale on-disk sorting.

Ease of Use

Spark has easy-to-use APIs for operating on large datasets. This includes a collection of over 100 operators for transforming data and familiar data frame APIs for manipulating semi-structured data.

A Unified Engine

Spark comes packaged with higher-level libraries, including support for SQL queries, streaming data, machine learning and graph processing. These standard libraries increase developer productivity and can be seamlessly combined to create complex workflows.

Essayez gratuitement Apache Spark sur le cloud Databricks

Databricks Unified Analytics Platform offre une performance 5 fois plus élevée que la solution Spark open-source, des notebooks collaboratifs, des workflows intégrés et de la sécurité pour l'entreprise – le tout en une seule plateforme de cloud entièrement managée.

Essayer Databricks

Le projet Apache Spark open source est téléchargeable ici.