Direkt zum Hauptinhalt

Open-Source

Einige der weltweit beliebtesten Open-Source-Datentechnologien wurden ursprünglich von Databricks-Ingenieuren erfunden

Unsere beliebtesten Open-Source-Projekte

Apache Spark™

Apache Spark ist eine vereinheitlichte Engine zum Ausführen von Data-Engineering-, Data-Science- und ML-Workloads.

Was ist Apache Spark?

Spark und Databricks im Vergleich

spark.apache.org besuchen

Delta Lake

Mit Delta Lake können Sie eine Lakehouse-Architektur auf Speichersysteme wie AWS S3, ADLS, GCS und HDFS aufsetzen.

Weitere Informationen zu Delta Lake

delta.io besuchen

Tech-Talks: Erste Schritte mit Delta Lake

MLflow

MLflow verwaltet den ML-Lebenszyklus, einschließlich Experimente, Reproduzierbarkeit, Implementierung und einer zentralen Modellregistrierung.

Managed MLflow auf Databricks

MLFLOW.ORG BESUCHEN

Tech Talks: Den ML-Lifecycle verwalten

Redash

Mit Redash kann wirklich jeder Anwender SQL nutzen, um Daten aus großen und kleinen Datenquellen zu untersuchen, abzufragen, zu visualisieren und zu teilen.

Redash in GitHub besuchen

Delta-Freigabe

Delta Sharing ist das branchenweit erste offene Protokoll für die sichere Datenfreigabe. Mit Delta Sharing wird der Datenaustausch mit anderen Organisationen zum Kinderspiel.

Delta Sharing besuchen

Databricks unterstützt außerdem die folgenden beliebten Open-Source-Technologien

TensorFlow

Databricks unterstützt TensorFlow, eine Bibliothek für Deep Learning und allgemeine Berechnungen auf Clustern

TensorFlow auf Databricks

PyTorch™

PyTorch-Schöpfer Facebook und Databricks entwickeln gemeinsam Integrationen

PyTorch auf Databricks

Keras™

In Python geschriebene Deep-Learning-API, die auf TensorFlow aufbaut. Verfügbar in Databricks Runtime für ML

Keras auf Databricks

RStudio

Eine Sammlung von Open-Source-Tools für kollaborative Data Science mit R

R-Programmierung für Big Data

Scikit-learn

Weit verbreitetes Python-Paket für maschinelles Lernen, das auf NumPy, SciPy und Matplotlib aufbaut

Scikit-learn in Databricks

XGBoost

Eine verteilte Gradient-Boosting-Bibliothek mit Bindungen in Sprachen wie Python, R und C++

XGBoost auf Databricks

Terraform

HashiCorp Terraform ist ein beliebtes Open-Source-Tool zum Erstellen einer sicheren und vorhersehbaren Cloud-Infrastruktur für mehrere Cloud-Anbieter. Der Terraform-Anbieter von Databricks ermöglicht es Kunden, ihre gesamten Databricks-Workspaces zusammen mit dem Rest ihrer Infrastruktur mit einem flexiblen, leistungsstarken Tool zu verwalten. Die Verwendung von Terraform erleichtert Kunden auch den Einsatz von Best Practices mit Infrastructure as Code (IaC).

Terraform auf Databricks

Möchten Sie loslegen?