Open Source

Les ingénieurs de Databricks sont les créateurs de plusieurs technologies de données open source parmi les plus populaires au monde

Participez à un Meetup
image d'arrière-plan

Nos projets Open Source les plus populaires

icon-title
Apache SparkTM
Apache Spark est un moteur unifié pour exécuter des charges de travail de data engineering, de Data Science et de ML.

Qu'est-ce qu'Apache Spark ? →

Comparaison de Spark et Databricks →

Rendez-vous sur spark.apache.org →

icon-title
Delta Lake
Delta Lake vous permet de construire une architecture de lakehouse sur des systèmes de stockage tels qu'AWS S3, ADLS, GCS et HDFS.

En savoir plus sur Delta Lake →

Rendez-vous sur delta.io →

Conférences sur la tech : démarrer avec Delta Lake →

icon-title
MLflow
MLflow gère le cycle de vie du ML, y compris l'expérimentation, la reproductibilité, le déploiement et un registre central des modèles.

MLflow administré
sur Databricks →

Rendez-vous sur mlflow.org →

Conférences : gérer le cycle de vie du Machine learning →

icon-title
Redash
Redash permet à quiconque d'exploiter SQL pour explorer, interroger, visualiser et partager des données à partir de petites ou de grandes sources de données (small et big data).

Découvrez Redash sur GitHub →

icon-title
Delta Sharing
Delta Sharing est le premier protocole ouvert pour le partage sécurisé des données. Il permet d'échanger facilement des données avec d'autres organisations.

Découvrez Delta Sharing →

Databricks prend en charge ces technologies open source courantes supplémentaires

icon-title
TensorFlow
Databricks prend en charge TensorFlow, une bibliothèque de référence pour le deep learning et les clusters de calcul

TensorFlow sur Databricks →

icon-title
PyTorchTM
Facebook, le créateur de PyTorch, et Databricks ont collaboré sur des intégrations communes.

PyTorch sur Databricks →

icon-title
KerasTM
API de deep learning écrite en Python, Keras fonctionne par-dessus TensorFlow. Elle est disponible dans Databricks Runtime pour ML.

Keras sur Databricks →

icon-title
RStudio
Une suite d'outils open source pour la Data Science collaborative à l'aide de R ​

Programmation R pour le Big Data →

icon-title
Scikit-learn
Package Python largement utilisé dans le Machine Learning basé sur NumPy, SciPy et Matplotlib​​

Scikit-learn sur Databricks →

icon-title
xgboost
Une bibliothèque distribuée de boosting de gradient reliée aux langages tels que Python, R et C++.

XGBoost sur Databricks →

Prêt à vous lancer ?