주요 컨텐츠로 이동

Hosted Spark

Databricks 무료로 시작하기

Hosted Spark란 무엇입니까?

Apache Spark는 속도, 사용 편이성과 고급 분석을 중심으로 구축된 빅데이터용 고속, 일반 클러스터 컴퓨팅 시스템입니다. 2009년에 UC 버클리에서 처음 구축되었습니다. Scala, Java, Python과 R에서 고수준 API를 제공하며 데이터 분석에 적합한 범용 연산 그래프를 지원하는 최적화 엔진도 있습니다. 이외에도 SQL과 DataFrame용 Spark SQL, 머신 러닝용 MLlib, 그래프 처리용으로는 GraphX, 스트림 처리에는 Spark Streaming을 제공합니다.

Spark가 제공하는 두 가지 데이터 탐색 모드:

  • 인터랙티브(대화형)
  • 배치(일괄)

Spark 탐색 모드Spark는 최종 사용자 상호작용을 간소화하기 위해 통합형, 호스팅 데이터 플랫폼으로 제공되기도 합니다. 원격 애플리케이션으로는 Spark 리소스에 직접 액세스할 수 없기 때문에, 사용자에게 프로덕션까지 경로가 길어진다는 문제가 발생했습니다. 이 장애물을 극복하기 위해 REST API를 통해 어디서나 Spark 클러스터에 효율적으로 연결할 수 있도록 원격 앱을 지원하는 서비스가 여럿 생겼습니다. 이러한 인터페이스는 로컬로, 또는 Apache 하둡 YARN에서 실행되는 Spark 컨텍스트로 코드나 프로그램의 스니펫 실행을 지원합니다. Hosted Spark 인터페이스는 검증된 턴키 솔루션입니다. Spark와 애플리케이션 서버 사이의 상호작용을 속행해주고, 인터랙티브 웹과 모바일 앱에 필요한 아키텍처를 간소화해주는 역할을 합니다.

Hosted Spark 서비스가 제공하는 기능:

  • 인터랙티브 Scala, Python과 R 커버링
  • Scala, Java, Python으로 배치 제출
  • 여러 사용자가 같은 서버 공유 가능
  • REST를 통해 사용자가 위치에 구애받지 않고 작업 제출 가능
  • 프로그램에 코드를 변경할 필요가 없음

따라서 이제 기업에서는 Spark를 운용하는 데 방해가 되던 기존의 병목 현상을 손쉽게 극복하고 빅데이터가 약속하는 가치를 포착하는 데 주력할 수 있습니다.  

추가 자료

용어집으로 돌아가기