Hosted Spark

Databricks 무료로 시작하기

Hosted Spark란 무엇입니까?

Apache Spark는 속도, 사용 편이성과 고급 분석을 중심으로 구축된 빅데이터용 고속, 일반 클러스터 컴퓨팅 시스템입니다. 2009년에 UC 버클리에서 처음 구축되었습니다. Scala, Java, Python과 R에서 고수준 API를 제공하며 데이터 분석에 적합한 범용 연산 그래프를 지원하는 최적화 엔진도 있습니다. 이외에도 SQL과 DataFrame용 Spark SQL, 머신 러닝용 MLlib, 그래프 처리용으로는 GraphX, 스트림 처리에는 Spark Streaming을 제공합니다.

Spark가 제공하는 두 가지 데이터 탐색 모드:

인터랙티브(대화형)
배치(일괄)

Spark 탐색 모드 Spark는 최종 사용자 상호작용을 간소화하기 위해 통합형, 호스팅 데이터 플랫폼으로 제공되기도 합니다. 기존 원격 애플리케이션은 Spark 리소스에 직접 접근할 수 없어, 사용자가 프로덕션 환경에 도달하기까지 경로가 길어지는 문제가 있었습니다. 이 장애물을 극복하기 위해 REST API를 통해 어디서나 Spark 클러스터에 효율적으로 연결할 수 있도록 원격 앱을 지원하는 서비스가 여럿 생겼습니다. 이러한 인터페이스는 로컬로, 또는 Apache 하둡 YARN에서 실행되는 Spark 컨텍스트로 코드나 프로그램의 스니펫 실행을 지원합니다. Hosted Spark 인터페이스는 검증된 턴키 솔루션으로, Spark와 애플리케이션 서버 간 상호작용을 지원하고 웹·모바일 애플리케이션 아키텍처를 간소화합니다.

Hosted Spark 서비스가 제공하는 기능:

인터랙티브 Scala, Python과 R 커버링
Scala, Java, Python으로 배치 제출
여러 사용자가 같은 서버 공유 가능
REST를 통해 사용자가 위치에 구애받지 않고 작업 제출 가능
프로그램에 코드를 변경할 필요가 없음

따라서 이제 기업에서는 Spark를 운용하는 데 방해가 되던 기존의 병목 현상을 손쉽게 극복하고 빅데이터가 약속하는 가치를 포착하는 데 주력할 수 있습니다.

추가 자료

용어집으로 돌아가기