Apache Spark as a Service
Apache Spark as a Service란 무엇입니까?
Apache Spark는 고속 실시간 대규모 데이터 처리를 위한 오픈 소스 클러스터 컴퓨팅 프레임워크입니다.Spark는 2009년 UC 버클리 AMPLab에서 탄생한 이래 큰 성장을 이루었습니다. 지금은 빅데이터 부문에서 가장 큰 오픈 소스 커뮤니티로 평가되며 50여 개 조직과 단체에서 200여 명이 기여하고 있습니다. Databricks는 자사 Apache Spark 최적화 버전을 여러 가지 클라우드에서 Spark-as-a-Service로 호스팅합니다. 여기에 일련의 기본 내장 애플리케이션이 함께 제공되어 데이터에 액세스, 이를 분석하는 속도가 한층 빨라집니다.Spark as a Service는 빅데이터에 작용하는 Spark의 무수히 많은 기능을 활용합니다. 예를 들어 스트리밍 데이터를 다루거나 그래프 연산을 수행하고 하둡에서 SQL을 제공하는 기능은 물론 머신 러닝 기능도 예외가 아닙니다. Spark가 제공하는 기회는 대부분 기업이 이미 인지하고 있지만, 여전히 수많은 기업이 고전 중입니다. 왜 그럴까요? 기업체에서 데이터 스트림이나 대량의 데이터를 분석하려 할 때 직면하는 여러 가지 문제점 때문입니다.다만 그렇다고 해서 하드웨어 투자나 전면적인 도입, 구현 없이도 Spark가 제공하는 장점을 활용할 수 없다는 뜻은 아닙니다. Spark as a Service는 인프라와 연관된 문제점을 없애주고, 필요한 비용이나 수고를 대부분 없애 프로세스 속도를 높여줍니다. 이미 Spark as a Service를 제공하는 제공업체가 여러 곳 있으므로 배포하기 쉽고 빠른 프레임워크이기도 합니다. 이 솔루션은 단기 데이터 분석 프로젝트에 탁월하여 신속하게 설치하고 높은 투자 수익(ROI)을 확보할 수 있습니다. Spark as a Service를 이용하면 Hive, HDFS, HBase와 Amazon S3에 저장된 데이터를 간편하게 처리하고 쿼리할 수 있습니다. 일시적으로 분석 프로젝트를 추진해야 한다면 Spark as a Service가 최고의 선택일 것입니다. 동시에, 빅데이터와 분석을 사용하면 얻을 수 있는 장점을 먼저 알아본 다음에 자사 빅데이터 처리 시스템에 거액의 투자를 결정하려 방법을 알아보는 회사에도 반가운 선택지라는 점이 검증되었습니다.
Spark as a Service를 이용하면 얻을 수 있는 주된 장점:
- Spark 데이터에 손쉽게 액세스
- 전문적인 코딩 기술이 필요 없으므로 기술 사용자나 비즈니스 사용자 모두 손쉽게 사용 가능
- 저렴한 비용