주요 컨텐츠로 이동

오픈 소스

Databricks 엔지니어는 세계에서 가장 보편적인 오픈 소스 데이터 기술을 개발한 주역

Databricks의 대표적인 오픈 소스 프로젝트

Apache Spark™

Apache Spark는 데이터 엔지니어링, 데이터 사이언스와 ML 워크로드 실행용 통합형 엔진입니다.

Apache Spark란 ?

Spark와 Databricks 비교→

spark.apache.org 방문

Delta Lake

Delta Lake를 사용하면 AWS S3, ADLS, GCS 및 HDFS와 같은 스토리지 시스템을 기반으로 레이크하우스 아키텍처를 빌드할 수 있습니다.

Delta Lake에 관해 자세히 알아보기

Delta.io 방문

Tech Talks: Delta Lake 시작하기

Apache Iceberg™

Apache Iceberg lets you build a lakehouse architecture on top of storage systems such as AWS S3, ADLS, GCS and HDFS.

Visit apache.iceberg.org

Unity Catalog

Unity Catalog is the industry’s only universal catalog for data and AI.

Learn more about Unity Catalog

Visit unitycatalog.io

MLFlow

MLflow는 실험, 재현 가능성, 배포와 중앙 모델 레지스트리 등 ML 수명 주기를 관리합니다.

Databricks의 관리형 MLflow

mlflow.org 방문

Tech Talks: ML 수명 주기 관리

Delta Sharing

Delta Sharing은 안전한 데이터 공유를 위한 업계 최초의 오픈 프로토콜로, 다른 조직과 간편하게 데이터를 공유할 수 있게 해줍니다.

Delta Sharing 방문

Redash

Redash를 사용하면 누구나 SQL을 활용해 크고 작은 데이터 소스로부터 데이터를 탐색, 쿼리, 시각화하고 공유할 수 있습니다.

GitHub의 Redash 방문

Databricks에서 지원하는 기타 보편적인 오픈 소스 기술

TensorFlow

Databricks에서는 딥 러닝과 클러스터에서의 일반 연산을 위한 라이브러리 Tensorflow 지원

Databricks의 TensorFlow

PyTorch™

PyTorch 개발자인 Facebook과 Databricks, 통합을 위해 협업

Databricks의 PyTorch

Keras™

Python으로 쓰인 딥러닝 API로, TensorFlow 기반으로 실행됩니다. Databricks Runtime for ML에서 제공

Databricks의 Keras

RStudio

R을 사용한 협업형 데이터 사이언스용 오픈 소스 툴 스위트​

빅데이터 R 프로그래밍

scikit-learn

NumPy, SciPy 및 Matplotlilb 기반으로 구축된 보편적인 머신 러닝용 Python 패키지​​

Databricks의 Scikit-learn

XGBoost

Python, R 및 C++ 등의 언어로 된 바인딩을 포함한 분산형 그래디언트 부스팅(gradient boosting) 라이브러리

Databricks의 XGBoost

Terraform

HashiCorp Terraform은 여러 클라우드 제공업체에서 안전하고 예측 가능한 클라우드 인프라를 만드는 데 사용하는 인기 오픈 소스 도구입니다. Databricks Terraform 공급업체는 고객이 유연하고 강력한 도구를 사용하여 나머지 인프라와 함께 Databricks 워크스페이스를 관리하도록 지원합니다. 또한, Terraform를 사용하는 고객은 코드형 인프라(IaC)로 모범 사례를 쉽게 도입할 수 있습니다.

Databricks의 Terraform

Ready to get started?