Gemeinsame Datennutzung
Was ist Data Sharing?
Als Data Sharing (gemeinsame Datennutzung) bezeichnet man die Möglichkeit, dieselben Daten mehreren Datenverbrauchern zur Verfügung zu stellen. Die stetig wachsende Menge an Daten ist heutzutage ein strategisches Gut für jedes Unternehmen. Data Sharing ist eine Technologie zur gemeinsamen Nutzung von Daten innerhalb Ihres Unternehmens oder auch mit externen Partnern, die den Weg für neue Geschäftschancen ebnet. Die gemeinsame Nutzung von Daten und die Nutzung von Daten aus externen Quellen ermöglichen es, mit Partnern zusammenzuarbeiten, neue Partnerschaften einzugehen und durch die Monetarisierung der Daten neue Einnahmequellen zu erschließen.
Traditionelle Data-Sharing-Technologien
Zunächst zu nennen sind hier Technologien wie SFTP (SSH File Transfer Protocol) oder Cloudobjektspeicher, die die Implementierung eigener Lösungen ermöglichen. Allerdings skaliert SFTP gerade bei einer großen Anzahl von Clients nicht besonders gut und unterstützt zudem nur die Bereitstellung von Daten, die zuvor auf einem FTP-Server gespeichert wurden. Die Verwendung von vorsignierten Objektspeicher-URLs für die gemeinsame Nutzung von Daten passt sich der Bandbreite des Objektspeicher-Clouddiensts an, funktioniert aber jeweils nur bei einem bestimmten Cloudanbieter.
Kommerzielle und Closed-Source-Angebote für das Data Sharing
Zum zweiten gibt es Data-Sharing-Lösungen, die in die Produkte der betreffenden Anbieter integriert sind, wie z. B. Oracle, AWS Redshift oder Snowflake. Solche Lösungen sind bequem innerhalb des betreffenden Produkts zu verwenden. Sie nutzen Tabellen statt Dateien. Allerdings sind sie nicht quelloffen und unterstützen daher kein Data Sharing mit anderen Plattformen.
Moderne Open-Source-Lösungen für das Data Sharing
Open-Source-Lösungen verhindern eine Bindung an kommerzielle Anbieter und bieten außerdem eine Reihe weiterer Vorteile, wie z. B. von der Community entwickelte Integrationen für beliebte Open-Source-Frameworks zur Datenverarbeitung. Darüber hinaus ermöglichen offene Protokolle eine unkomplizierte Integration kommerzieller Clients, wie z. B. BI-Tools.
Delta-Freigabe
Delta Sharing ist das weltweit erste offene Protokoll für die sichere Datenfreigabe. Mit Delta Sharing wird der Datenaustausch mit anderen Organisationen zum Kinderspiel – ganz gleich, welche Rechenplattformen sie nutzen.
- Sofortfreigabe von Livedaten: Geben Sie vorhandene Echtzeitdaten in Ihrem Delta Lake frei, ohne sie zuvor auf ein anderes System kopieren zu müssen.
- Unterstützung verschiedenster Clients: Datenempfänger können sich auf Pandas, Apache Spark™, Rust und weiteren Systemen direkt mit Delta Shares verbinden, ohne zunächst eine bestimmte Rechenplattform implementieren zu müssen. So vermeiden Sie Reibungsverluste bei der Weitergabe Ihrer Daten an Ihre Benutzer.
- Sicherheit und Governance: Mit Delta Sharing können Sie den Zugriff auf Ihre gemeinsam genutzten Datensätze bequem regeln, beobachten und prüfen.
- Skalierbarkeit: Geben Sie umfangreiche Datasets durch Verwendung von Cloudspeichersystemen wie S3, ADLS und GCS zuverlässig und effizient frei.
Delta Sharing auf Databricks
Databricks ist nativ in Delta Sharing in unserem Unity Catalog integriert und ermöglicht eine effiziente Nutzung des Data Sharings sowohl innerhalb eines Unternehmens als auch organisationsübergreifend. Administratoren können Freigaben mit dem neuen SQL-Befehl CREATE SHARE oder über REST-APIs verwalten und alle Zugriffe zentral protokollieren. Die Empfänger können die Daten dann von einer beliebigen Plattform in einer beliebigen Cloud abrufen.
Delta Sharing: ein offenes Ökosystem
Das Delta Sharing-Ökosystem mit seinen Open-Source- und gewerblichen Partnern wird Tag für Tag größer. Geben Sie Ihre Daten für beliebige Empfänger frei – ganz gleich, wo diese ansässig sind.
Weitere Informationen zum Data Sharing auf Databricks
Registrieren Sie sich auf der Warteliste für Databricks Delta Sharing, um Zugang zur Preview und zu Updates zu erhalten.