Häufig gestellte Fragen über Databricks

Allgemeine Fragen


Werden sie richtig verarbeitet und analysiert, eröffnen Daten Unternehmen – unzählige Möglichkeiten, bestehende Geschäftsprozesse zu optimieren und neue Geschäftsmodelle zu erschließen. Es ist die Aufgabe von Data Science-Teams solche Möglichkeiten aufspüren und ihrem Unternehmen zunutze zu machen. Keine leichte Aufgabe. Denn bislang standen ihnen hierzu meist nur schwerfällige Tools und eine schwierig einzurichtende Infrastruktur zur Verfügung. Anstatt Ihrem Unternehmen neue Geschäftsmöglichkeiten zu erschließen, waren die Data Science-Teams genötigt, erhebliche Teile ihrer Arbeitszeit auf die Handhabung dieser Tools und Infrastrukturen zu verwenden. Dies gilt besonders, wenn große Datenmengen, Big Data, ins Spiel kommen.

Databricks wurde von uns entwickelt, um Ihren Data Science-Teams den Umgang mit Big Data zu vereinfachen. Einen ersten Schritt in diese Richtung hatte vor einiger Zeit bereits Apache Spark™ unternommen – mit der Bereitstellung eines einheitlichen Frameworks für die Entwicklung von Daten-Pipelines. Wir bei Databricks gehen noch einen Schritt weiter. Denn wir stellen eine Spark-basierende Cloud-Plattform bereit, für die keinerlei zusätzliches Management erforderlich ist. Die Plattform bietet: 1) vollständig verwaltete Spark-Cluster, 2) einen interaktiven Arbeitsbereich für Untersuchungen und Visualisierungen, 3) ein Planungstool für Produktions-Pipelines und 4) eine Plattform zur Unterstützung der von Ihnen favorisierten Spark-basierenden Anwendungen. Anstatt sich mit Datenproblemen herumzuschlagen, können sich Ihre Data Science-Teams so endlich wieder ganz darauf konzentrieren, was wirklich zählt: Ihrem Unternehmen neue Geschäftsmöglichkeiten zu erschließen.

Jeder, der das Potential von Big Data schnell und effizient voll ausschöpfen möchte – vom Data Scientist und Data Engineer, bis hin zum Data Analysten. Databricks bietet Ihnen die Möglichkeit, Ihre Datenanalysen über Benutzeroberflächen auszuführen, mit denen Sie bereits vertraut sind. Die Plattform beinhaltet einen interaktiven Arbeitsbereich, der Ihnen Zugriff auf die systemeigenen R-, Scala-, Python- und SQL-Oberflächen von Spark gestattet. Eine REST-API bietet Remote-Zugriff zum Programmieren. Es besteht die Möglichkeit beliebige Spark-Jobs auszuführen, die offline erstellt wurden. Und schließlich besteht eine nahtlose Unterstützung für Anwendungen von Drittparteien, wie BI- und Domain-spezifische Tools.

Unternehmen der unterschiedlichsten Branchen greifen auf Databricks zurück. Finanz-, Gesundheits-, Einzelhandels-, Unterhaltung- und Versorgungsunternehmen zählen zu unserem Kundenkreis. Sie nutzen unsere Plattform für ein breites Spektrum an Anwendungsfällen. Hierzu zählen grundlegende ETL-Prozesse, Datenentdeckung und Datenuntersuchung, Data-Warehousing, die Bereitstellung von Datenprodukten und die Veröffentlichung von Erkenntnissen über Dashboards für interne und externe Zielgruppen.

Auf jeden Fall. Unternehmen häufen riesige Datenmengen an. Wollen sie diese Big Data effektiv erfassen und analysieren, haben sie sich zunächst einer Reihe von Problemen zu stellen – von erhöhten Anforderungen an ihr Infrastrukturmanagement, über Bereitstellungsengpässe, bis hin zu erhöhten Anschaffungs- und Managementkosten. Databricks nimmt der Verarbeitung und Analyse von Big Data diese Hürden. Unser Ziel ist es, die Nutzung von Big Data zu vereinfachen – damit sie irgendwann einmal im Unternehmensalltag eine genauso alltägliche Geschäftsanwendung darstellt, wie Excel schon heute.

Gegründet wurde Databricks vom selben Team, das an der UC Berkeley das Spark-Forschungsprojekt initiierte, aus dem später Apache Spark™ hervorgegangen ist. Um das Projekt kontinuierlich auszubauen, arbeitet Databricks eng mit der Open-Source-Community zusammen. Doch auch allein hat Databricks mehr Code für Spark programmiert als jedes andere Unternehmen. Aus gutem Grund bietet Databricks deshalb auch Zertifizierungsprogramme für Spark-Entwickler, -Systemintegratoren, -Anwendungen, -Vertreiber und -Dozenten an. Außerdem hat Databricks eine Unified Analytics Platform – eine zentrale Plattform für umfangreiche Datenanalysen – entwickelt. Sie beschleunigt Innovationen durch Zusammenführung von Data Science, Data Engineering und Business Analytics.

Fragen zur Verfügbarkeit


Die Preisgestaltung bei Databricks wird ausführlich auf unserer Preisseite erklärt.

Ja, Databricks ist offiziell verfügbar. Viele Unternehmenskunden aus einem breiten Spektrum an Branchen nutzen Databricks heute bereits für die unterschiedlichsten Anwendungsfälle, um Produktionsjobs in großem Umfang auszuführen. Hier können Sie loslegen.

Ja, mit Databricks können Apache Spark-Anwendungen ganz einfach entwickelt, getestet und eingesetzt werden. Databricks bietet Konnektivität mit ODBC/JDBC, der Standard-API für Spark, sowie eine systemeigene REST-API für Anwendungen von Drittparteien.

Technische Fragen


Derzeit unterstützt Databricks auf Browsern basierende Datei-Uploads. Daten können aus Azure Blob Storage, AWS S3, Azure SQL Data Warehouse, Azure Data Lake Store und NoSQL-Datenspeichern, wie Cosmos DB, Cassandra, Elasticsearch, JDBC-Datenquellen, HDFS, Sqoop und einer Vielzahl weiterer Datenquellen abgerufen werden. Der Vorgang wird von Apache Spark unterstützt.

Sicherheit und Fehlertoleranz haben bei Databricks oberste Priorität. Unser Produkt wurde von Grund auf mit ordnungsgemäßen Authentifizierungs- und Isolationsmechanismen entwickelt. Weitere Informationen finden Sie auf unserer Sicherheitsseite.

Databricks läuft zu 100 Prozent auf Apache Spark, weshalb sämtlicher auf Databricks entwickelter Code und alle auf Databricks entwickelten Anwendungen auf allen mit Apache Spark kompatiblen Distributions laufen können (wie zum Beispiel alle von Databricks zertifizierten Distributions).

Fragen zur Bereitstellung


Derzeit ist Databricks auf Microsoft Azure und Amazon AWS verfügbar.

Ja, Databricks wird vollständig in einer VPC auf Ihrem Konto bereitgestellt – um Sie mit einer zusätzlichen Schutz- und Isolationsschicht abzusichern.

Nein, derzeit ist dies noch nicht möglich. Wir arbeiten jedoch beständig an neuen Bereitstellungsmöglichkeiten von Databricks für unsere Kunden. Einige dieser Optionen beinhalten auch die Ausführung auf Clustern vor Ort.

Sicherheitsfragen


Nutzer von Databricks verarbeiten und lagern ihre Daten in ihren eigenen Datenspeichern – abgesichert durch ihre eigenen Zugangsdaten.

Nein, Sie müssen Ihre Daten nicht auf das AWS-Konto von Databricks übertragen. In den meisten Fällen ist ein Datenzugriff über Ihre aktuellen Datenquellen problemlos möglich.

Sie können leicht regulieren, wer in Ihrem Unternehmen Zugriff auf Ihre Daten und Notebooks erhält. Fügen Sie die erwünschten Personen einfach als Nutzer zu Ihrem Databricks-Konto hinzu. Schon können sie – und nur sie – gemeinsam auf die Plattform zugreifen.

Ausführliche Informationen zum Thema Sicherheit bei Databricks finden Sie auf unserer Sicherheitsseite.

Databricks bietet Ihnen die Option, auf eine exklusive Bereitstellung von Infrastruktur zurückzugreifen. Im mandantenfähigen Modus werden alle Databricks-Services, über eine separate VPC, ausschließlich für Sie ausgeführt – komplett von allen anderen isoliert. Sie können die Databricks-VPC sogar mit Ihrer eigenen VPC koppeln, um Cluster in Ihrem eigenen AWS-Konto zu verbinden und zu starten.

Unsere Kunden behalten die volle Kontrolle über und alle Besitzrechte an ihren Daten. Weitere Informationen finden Sie in den Nutzungsbedingungen von Databricks und der Datenschutzerklärung .

Basierend auf den Best Practices-Erfahrungen seiner Branche, ist es Databricks gelungen, eine effektive Sicherheitsarchitektur zu entwickeln und zu implementieren. Kontinuierlich wird daran gearbeitet, auch hohe Sicherheitsstandards wie die SANS Top 20 Controls for Internet Security, die Consensus Audit Guidelines, die NIST-Richtlinien und Internet-Standards zu erfüllen.

Darüber hinaus hat Databricks ein externes IT-Sicherheitsunternehmen damit beauftragt, nach möglichen Sicherheitsproblemen auf Anwendungs- und Netzwerkebene Ausschau zu halten, die die Integrität von Databricks beeinträchtigen könnten.

AWS offers a business continuity program (AWS business continuity and disaster recovery), and Databricks is designed to run out of multiple regions and multiple availability zones, or data centers.

Wir bieten einen umfassenden Leitfaden zum Thema Sicherheit an. Außerdem können Sie uns gerne an sales@databricks.com schreiben.