주요 컨텐츠로 이동

오픈 소스

Databricks 엔지니어는 세계에서 가장 보편적인 오픈 소스 데이터 기술을 개발한 주역

Databricks의 대표적인 오픈 소스 프로젝트

Apache Spark™

Apache Spark는 데이터 엔지니어링, 데이터 사이언스와 ML 워크로드 실행용 통합형 엔진입니다.

Apache Spark란 ?

Spark와 Databricks 비교→

spark.apache.org 방문

Delta Lake

Delta Lake를 사용하면 AWS S3, ADLS, GCS 및 HDFS와 같은 스토리지 시스템을 기반으로 레이크하우스 아키텍처를 빌드할 수 있습니다.

Delta Lake에 관해 자세히 알아보기

Delta.io 방문

Tech Talks: Delta Lake 시작하기

MLFlow

MLflow는 실험, 재현 가능성, 배포와 중앙 모델 레지스트리 등 ML 수명 주기를 관리합니다.

Databricks의 관리형 MLflow

mlflow.org 방문

Tech Talks: ML 수명 주기 관리

Redash

Redash를 사용하면 누구나 SQL을 활용해 크고 작은 데이터 소스로부터 데이터를 탐색, 쿼리, 시각화하고 공유할 수 있습니다.

GitHub의 Redash 방문

Delta Sharing

Delta Sharing은 안전한 데이터 공유를 위한 업계 최초의 오픈 프로토콜로, 다른 조직과 간편하게 데이터를 공유할 수 있게 해줍니다.

Delta Sharing 방문

Databricks에서 지원하는 기타 보편적인 오픈 소스 기술

TensorFlow

Databricks에서는 딥 러닝과 클러스터에서의 일반 연산을 위한 라이브러리 Tensorflow 지원

Databricks의 TensorFlow

PyTorch™

PyTorch 개발자인 Facebook과 Databricks, 통합을 위해 협업

Databricks의 PyTorch

Keras™

Python으로 쓰인 딥러닝 API로, TensorFlow 기반으로 실행됩니다. Databricks Runtime for ML에서 제공

Databricks의 Keras

RStudio

R을 사용한 협업형 데이터 사이언스용 오픈 소스 툴 스위트​

빅데이터 R 프로그래밍

scikit-learn

NumPy, SciPy 및 Matplotlilb 기반으로 구축된 보편적인 머신 러닝용 Python 패키지​​

Databricks의 Scikit-learn

XGBoost

Python, R 및 C++ 등의 언어로 된 바인딩을 포함한 분산형 그래디언트 부스팅(gradient boosting) 라이브러리

Databricks의 XGBoost

Terraform

HashiCorp Terraform은 여러 클라우드 제공업체에서 안전하고 예측 가능한 클라우드 인프라를 만드는 데 사용하는 인기 오픈 소스 도구입니다. Databricks Terraform 공급업체는 고객이 유연하고 강력한 도구를 사용하여 나머지 인프라와 함께 Databricks 워크스페이스를 관리하도록 지원합니다. 또한, Terraform를 사용하는 고객은 코드형 인프라(IaC)로 모범 사례를 쉽게 도입할 수 있습니다.

Databricks의 Terraform

시작할 준비가 되셨나요?