Passa al contenuto principale

Open source

Gli ingegneri di Databricks sono i creatori di alcune delle tecnologie open-source per la gestione dei dati più utilizzate al mondo

I nostri progetti open-source più noti

Apache Spark™

Apache Spark è un motore unico per eseguire carichi di lavoro per ingegneria dei dati, data science e ML.

Che cos'è Apache Spark?

Spark e Databricks a confronto

Visita spark.apache.org

Delta Lake

Delta Lake consente di costruire un'architettura lakehouse su sistemi di storage come AWS S3, ADLS, GCS e HDFS.

Maggiori informazioni su Delta Lake

Visita delta.io

Dibattiti tecnici: Primi passi con Delta Lake

Apache Iceberg™

Apache Iceberg lets you build a lakehouse architecture on top of storage systems such as AWS S3, ADLS, GCS and HDFS.

Visit apache.iceberg.org

Unity Catalog

Unity Catalog is the industry’s only universal catalog for data and AI.

Learn more about Unity Catalog

Visit unitycatalog.io

MLFLOW

MLflow gestisce il ciclo di vita ML, con sperimentazione, riproducibilità, implementazione e un registro centralizzato dei modelli.

Managed MLflow su Databricks

Visita mlflow.org

Dibattiti tecnici: Gestire il ciclo di vita del ML

Delta Sharing

Delta Sharing è il primo protocollo aperto per la condivisione sicura dei dati, che semplifica la condivisione con altre organizzazioni.

Visita Delta Sharing

Redash

Redash consente a tutti di utilizzare SQL per esplorare, interrogare, visualizzare e condividere dati da sorgenti di piccola e grande entità.

Visita Redash su GitHub

Databricks supporta altre tecnologie open-source molto diffuse

tensorflow

Databricks supporta TensorFlow, una libreria per deep learning e calcolo generico su cluster

TensorFlow su Databricks

PyTorch™

Facebook, creatore di PyTorch, e Databricks hanno collaborato alle integrazioni

PyTorch su Databricks

Keras™

API di Deep Learning scritte in Python che girano su TensorFlow. Disponibili in Databricks Runtime per ML.

Keras su Databricks

RStudio

Una suite open-source di strumenti per data science collaborativa che utilizza R ​

Programmazione R su Big Data

scikit-learn

Pacchetto Python molto utilizzato per machine learning basato su NumPy, SciPy e Matplotlib​​

Scikit-learn su Databricks

XGBoost

Libreria software di regolarizzazione del gradiente per linguaggi come Python, R e C++

XGBoost su Databricks

Terraform

HashiCorp Terraform è uno strumento open-source molto diffuso per creare un'infrastruttura sicura e prevedibile su diversi provider di servizi cloud. Il provider Databricks Terraform consente ai clienti di gestire tutti i loro spazi di lavoro Databricks e il resto dell'infrastruttura con un unico strumento potente e flessibile. L'uso di Terraform porta inoltre i clienti ad adottare best practice con infrastruttura come codice (IaC)

Terraform su Databricks

Ready to get started?