Revenir au contenu principal

Open Source

Les ingénieurs de Databricks sont les créateurs de plusieurs technologies de données open source parmi les plus populaires au monde

Nos projets Open Source les plus populaires

Apache Spark™

Apache Spark est un moteur unifié pour exécuter des charges de travail de data engineering, de Data Science et de ML.

Qu'est-ce qu'Apache Spark ?

Comparaison de Spark et Databricks

Rendez-vous sur spark.apache.org

Delta Lake

Delta Lake vous permet de construire une architecture de lakehouse sur des systèmes de stockage tels qu'AWS S3, ADLS, GCS et HDFS.

En savoir plus sur Delta Lake

Rendez-vous sur Delta.io

Conférences sur la tech : démarrer avec Delta Lake

MLflow

MLflow gère le cycle de vie du ML, y compris l'expérimentation, la reproductibilité, le déploiement et un registre central des modèles.

MLflow managé sur Databricks

SE RENDRE SUR MLFLOW.ORG

Conférences : gérer le cycle de vie du machine learning

Redash

Redash permet à quiconque d'exploiter SQL pour explorer, interroger, visualiser et partager des données à partir de petites ou de grandes sources de données (small et big data).

Découvrez Redash sur GitHub

Delta Sharing

Delta Sharing est le premier protocole ouvert pour le partage sécurisé des données. Il permet d'échanger facilement des données avec d'autres organisations.

Découvrez Delta Sharing

Databricks prend en charge ces technologies open source courantes supplémentaires

TensorFlow

Databricks prend en charge TensorFlow, une bibliothèque de référence pour le deep learning et les clusters de calcul

TensorFlow sur Databricks

PyTorch™

Facebook, le créateur de PyTorch, et Databricks ont collaboré sur des intégrations communes.

PyTorch sur Databricks

Keras™

API de deep learning écrite en Python, Keras s'exécute sur TensorFlow. Elle est disponible dans Databricks Runtime pour ML.

Keras sur Databricks

RStudio

Une suite d'outils open source pour la Data Science collaborative à l'aide de R ​

Programmation R pour le Big Data

Scikit-learn

Package Python largement utilisé dans le Machine Learning basé sur NumPy, SciPy et Matplotlib​​

Scikit-learn sur Databricks

xgboost

Une bibliothèque distribuée de boosting de gradient reliée aux langages tels que Python, R et C++.

XGBoost sur Databricks

Terraform

HashiCorp Terraform est un outil open source populaire qui permet de créer une infrastructure cloud sûre et prévisible englobant plusieurs fournisseurs de services cloud. Le fournisseur Terraform de Databricks permet aux clients de disposer d'un outil flexible et puissant pour gérer l'ensemble de leurs espaces de travail Databricks et le reste de leur infrastructure. L'utilisation de Terraform encourage également les clients à adopter les bonnes pratiques avec l'infrastructure en tant que code (IaC).

Terraform sur Databricks

Prêt à vous lancer ?