Open source
Gli ingegneri di Databricks sono i creatori di alcune delle tecnologie open-source per la gestione dei dati più utilizzate al mondo
Unisciti a un meetupI nostri progetti open-source più noti
Apache SparkTM
Apache Spark è un motore unico per eseguire carichi di lavoro per ingegneria dei dati, data science e ML.
Delta Lake
Delta Lake consente di costruire un'architettura lakehouse su sistemi di storage come AWS S3, ADLS, GCS e HDFS.
MLflow
MLflow gestisce il ciclo di vita ML, con sperimentazione, riproducibilità, implementazione e un registro centralizzato dei modelli.
Redash
Redash consente a tutti di utilizzare SQL per esplorare, interrogare, visualizzare e condividere dati da sorgenti di piccola e grande entità.
Delta Sharing
Delta Sharing è il primo protocollo aperto per la condivisione sicura dei dati, che semplifica la condivisione con altre organizzazioni.
Databricks supporta altre tecnologie open-source molto diffuse
TensorFlow
Databricks supporta TensorFlow, una libreria per deep learning e calcolo generico su cluster
PyTorchTM
Facebook, creatore di PyTorch, e Databricks hanno collaborato alle integrazioni

KerasTM
API di Deep Learning scritte in Python che girano su TensorFlow. Disponibili in Databricks Runtime per ML.
RStudio
Una suite open-source di strumenti per data science collaborativa che utilizza R
scikit-learn
Pacchetto Python molto utilizzato per machine learning basato su NumPy, SciPy e Matplotlib
XGBoost
Libreria software di regolarizzazione del gradiente per linguaggi come Python, R e C++
Terraform
HashiCorp Terraform is a popular open source tool for creating safe and predictable cloud infrastructure across several cloud providers. Databricks Terraform provider allows customers to manage their entire Databricks workspaces along with the rest of their infrastructure using a flexible, powerful tool. Using Terraform also encourages customers to adopt best practices with infrastructure as code (IaC).
Pronti per cominciare?

