Ir para o conteúdo principal

Código aberto

Os engenheiros da Databricks estão por trás de várias das tecnologias de dados de código aberto mais populares do mundo

Nossos projetos de código aberto mais populares

Apache Spark™

O Apache Spark é um mecanismo unificado para executar workloads de data engineering, data science e ML.

O que é o Apache Spark?

Comparação entre Spark e Databricks

Acesse spark.apache.org

Delta Lake

O Delta Lake permite que você crie uma arquitetura de lakehouse em sistemas de armazenamento como AWS S3, ADLS, GCS e HDFS.

Saiba mais sobre o Delta Lake

Acesse delta.io

Tech Talks: Introdução ao Delta Lake

MLflow

O MLflow gerencia o ciclo de vida do ML, incluindo experimentação, reprodutibilidade, deployment e um registro de modelo central.

MLflow gerenciado na Databricks

Acesse mlflow.org

Tech Talks: Gerenciar o ciclo de vida do ML

Redash

O Redash permite que qualquer pessoa aproveite o SQL para explorar, consultar, visualizar e compartilhar dados de fontes de small e big data.

Acesse o Redash no GitHub

Delta Sharing

O Delta Sharing é o primeiro protocolo aberto para compartilhamento seguro de dados, que facilita a troca de dados com outras organizações.

Acesse o Delta Sharing

Databricks é compatível com estas tecnologias de código aberto populares adicionais

TensorFlow

ADatabricks é compatível com o TensorFlow, uma biblioteca de referência para deep learning e computação geral de clusters

TensorFlow na Databricks

PyTorch™

O Facebook, o criador do PyTorch, e a Databricks colaboraram em integrações conjuntas

PyTorch na Databricks

Keras™

Uma API de deep learning escrita em Python, executada sobre o TensorFlow. Está disponível no Databricks Runtime para ML

Keras no Databricks

RStudio

Um conjunto de ferramentas de código aberto para data science colaborativa usando R ​

Programação R para big data

scikit-learn

Pacote Python amplamente usado em machine learning baseado em NumPy, SciPy e Matplotlib​​

Scikit-learn na Databricks

XGBoost

Uma biblioteca de aumento de gradiente distribuída vinculada a linguagens como Python, R e C++

XGBoost no Databricks

Terraform

O HashiCorp Terraform é uma ferramenta popular de código aberto para criar uma infraestrutura de nuvem segura e previsível que abrange vários provedores de serviços de nuvem. O provedor do Databricks Terraform fornece aos clientes uma ferramenta flexível e poderosa para gerenciar todos os seus workspaces Databricks e o restante de sua infraestrutura. O uso do Terraform também incentiva os clientes a adotarem as práticas recomendadas com infraestrutura como código (IaC)

Terraform na Databricks

Tudo pronto para começar?