주요 컨텐츠로 이동

Apache Spark™

Apache Spark는 빅데이터와 머신 러닝에 사용하는 고속 통합 분석 엔진입니다. 원래는 2009년에 UC Berkeley에서 개발되었습니다.

largest open source apache spark image

데이터 처리 분야에서는 가장 규모가 큰 오픈 소스 프로젝트입니다.

통합 분석 엔진인 Apache Spark는 릴리스된 이후로 다양한 산업의 기업에서 빠른 속도로 도입되었습니다. Netflix, Yahoo, eBay와 같은 인터넷 대기업들이 대규모로 Spark를 배포하였고, 8,000개가 넘는 클러스터에서 모두 합쳐 페타바이트 규모의 데이터를 처리합니다. 얼마 지나지 않아 빅데이터 분야에서는 최대 규모의 오픈 소스 커뮤니티로 성장하였고 250개 이상 조직에서 1,000명 이상이 기여하고 있습니다.

UC Berkeley에서 Spark 연구 프로젝트를 시작했던 팀이 2013년에 Databricks를 설립했습니다.

Apache Spark는 공급업체와 관계없이 Apache Software Foundation에서 호스팅되는 100% 오픈 소스입니다. Databricks에서는 이 오픈 개발 모델을 유지하고자 최선을 다하고 있습니다. Databricks는 Spark 커뮤니티와 더불어, 앞으로도 개발과 커뮤니티를 전도함으로써 Apache Spark 프로젝트에 크게 이바지하고 있습니다.

Apache Spark 소개 - Apache Spark의 장점

속도

상향식으로 성능을 설계한 Spark는 메모리 내 컴퓨팅과 다른 최적화 방식을 활용하여  대규모 데이터 처리에서 보다 100배 빠른 속도를 자랑합니다. 또한, Spark는 디스크에 데이터를 저장했을 때도 빠른 속도로 처리하고 현재 디스크 내 대규모 정렬에서 세계 신기록을 보유하고 있습니다.

사용 편이성

Spark는 대규모 데이터 세트를 운영하는 데 쉽게 사용할 수 있는 API를 제공합니다. 여기에는 데이터 변환을 위한 100개 이상의 연산자 컬렉션과 반구조화된 데이터 조작에 흔히 사용하는 데이터 프레임 API도 포함됩니다.

통합 엔진

Spark는 SQL 쿼리, 스트리밍 데이터, 머신 러닝, 그래프 처리에 대한 지원을 포함하여 높은 수준의 라이브러리가 패키지로 제공됩니다. 이러한 표준 라이브러리는 개발자 생산성을 향상하며, 간편하게 결합하여 복잡한 워크플로를 구현할 수 있습니다.

Databricks 클라우드에서 무료로 Apache Spark 체험하기

Databricks 통합 분석 플랫폼은 완전 관리형 클라우드 플랫폼에서 오픈 소스 Spark, 협업 노트북, 통합 워크플로, 엔터프라이즈 보안에 대해 5배의 성능을 제공합니다.

오픈 소스 Apache Spark 프로젝트는 여기에서 다운로드할 수 있습니다.