Apache Spark™

Apache Spark는 빅데이터와 머신 러닝에 사용하는 고속 통합 분석 엔진입니다. 원래는 2009년에 UC Berkeley에서 개발되었습니다.

데이터 처리 분야에서는 가장 규모가 큰 오픈 소스 프로젝트입니다.

통합 분석 엔진인 Apache Spark는 릴리스된 이후로 다양한 산업의 기업에서 빠른 속도로 도입되었습니다. Netflix, Yahoo, eBay와 같은 인터넷 대기업들이 대규모로 Spark를 배포하였고, 8,000개가 넘는 클러스터에서 모두 합쳐 페타바이트 규모의 데이터를 처리합니다. 얼마 지나지 않아 빅데이터 분야에서는 최대 규모의 오픈 소스 커뮤니티로 성장하였고 250개 이상 조직에서 1,000명 이상이 기여하고 있습니다.

UC Berkeley에서 Spark 연구 프로젝트를 시작했던 팀이 2013년에 Databricks를 설립했습니다.

Apache Spark는 공급업체와 관계없이 Apache Software Foundation에서 호스팅되는 100% 오픈 소스입니다. Databricks에서는 이 오픈 개발 모델을 유지하고자 최선을 다하고 있습니다. Databricks는 Spark 커뮤니티와 더불어, 앞으로도 개발과 커뮤니티를 전도함으로써 Apache Spark 프로젝트에 크게 이바지하고 있습니다.

동영상 보기

Apache Spark란? - Apache Spark의 장점

속도

성능을 위해 처음부터 설계된 Spark는 인메모리 컴퓨팅과 기타 최적화를 활용하여 대규모 데이터 처리에서 Hadoop보다 최대 100배 빠릅니다. 또한 데이터가 디스크에 저장되어 있을 때도 빠르며, 대규모 디스크 기반 정렬에서 세계 기록을 보유하고 있습니다.

쉬운 사용

Spark는 대규모 데이터셋을 다루기 위한 쉬운 API를 제공합니다. 여기에는 100개 이상의 데이터 변환 연산자와 반구조적 데이터를 조작하기 위한 익숙한 데이터 프레임 API가 포함됩니다.

통합 엔진

Spark는 SQL 쿼리, 스트리밍, 머신러닝, 그래프 처리 등을 지원하는 고급 라이브러리와 함께 제공됩니다. 이 표준 라이브러리는 개발자의 생산성을 높이고 복잡한 워크플로우를 원활하게 결합할 수 있게 해줍니다.

Databricks 클라우드에서 무료로 Apache Spark 체험하기

Databricks 통합 분석 플랫폼은 완전 관리형 클라우드 플랫폼에서 오픈 소스 Spark, 협업 노트북, 통합 워크플로, 엔터프라이즈 보안에 대해 5배의 성능을 제공합니다.

Databricks 이용해 보기

오픈 소스 Apache Spark 프로젝트는 여기에서 다운로드할 수 있습니다.