Partage de données
Qu’est-ce que le partage de données ?
Le partage de données est la capacité de mettre les mêmes données à la disposition d’un ou de plusieurs consommateurs. De nos jours, la quantité sans cesse croissante de données est devenue un asset stratégique pour toute entreprise. Le partage des données, au sein de votre entreprise ou à l’extérieur, est une technologie de base permettant de créer de nouvelles opportunités commerciales. Le partage de données et la consommation de données provenant de sources externes permettent de collaborer avec des entreprises, d’établir de nouveaux partenariats et de générer de nouvelles sources de revenus grâce à la monétisation des données.
Technologies traditionnelles de partage de données
Tout d’abord, il existe des technologies telles que le protocole SFTP (SSH File Transfer Protocol) ou le stockage d’objets cloud qui permettent la mise en œuvre de solutions « maison ». Cependant, le protocole SFTP ne monte pas suffisamment en charge lorsque le nombre de clients est élevé. De plus, il est uniquement utilisé pour des fichiers transférés vers un serveur FTP. Utiliser des URL de magasins d’objets pré-signés pour le partage de données permet à la bande passante du service de magasins d’objets cloud de monter en charge, mais ne fonctionne que pour un fournisseur cloud particulier.
Offres commerciales ou à source fermée de partage de données
Deuxièmement, il existe des solutions de partage de données intégrées dans les produits des fournisseurs, comme Oracle, AWS Redshift ou Snowflake. Ces solutions sont pratiques à utiliser au sein d’un produit et elles partagent des tables au lieu de fichiers. Cependant, elles ne sont pas ouvertes et ne permettent donc pas le partage de données avec une autre plateforme.
Solutions de partage de données modernes et open source
Les solutions open source sont différentes des solutions commerciales verrouillées. De plus, elles offrent un certain nombre d’avantages supplémentaires, tels que les intégrations développées par la communauté avec des frameworks de traitement de données populaires et open source. En outre, les protocoles ouverts permettent d’intégrer facilement des clients commerciaux, tels que des outils BI (Business Intelligence).
Delta Sharing
Delta Sharing est le premier protocole ouvert pour le partage sécurisé des données. Il permet d’échanger facilement des données avec d’autres organisations, quelles que soient les plateformes informatiques qu’elles utilisent.
- Partager directement des données « live » : partagez facilement des données existantes et des données « live » sur Delta Lake sans avoir à les copier sur un autre système.
- Prise en charge de divers clients : les destinataires des données peuvent se connecter directement à Delta Sharing à partir de Pandas, Apache Spark™, Rust et d’autres systèmes sans avoir à déployer au préalable une plateforme de calcul spécifique. Réduisez ainsi les frictions pour que vos données parviennent à vos utilisateurs.
- Sécurité et gouvernance : Delta Sharing vous permet de gérer, suivre et auditer facilement l’accès à vos datasets partagés.
- Évolutivité : partagez à grande échelle des datasets de manière fiable et efficace en utilisant les systèmes de stockage cloud tels que S3, ADLS et GCS.
Delta Sharing sur Databricks
Databricks s’intègre à Delta Sharing en mode natif dans notre Unity Catalog, offrant une expérience simplifiée pour le partage des données au sein d’une organisation et entre différentes entreprises. Les administrateurs peuvent gérer les partages à l’aide d’une nouvelle commande SQL CREATE SHARE ou en utilisant l’API REST. Ils peuvent aussi auditer tous les accès de manière centralisée. Les destinataires peuvent ensuite consommer les données à partir de la plateforme et du service cloud de leur choix.
Delta Sharing : un écosystème ouvert
L’écosystème Delta Sharing est composé de plusieurs partenaires commerciaux et open source. Il ne cesse de s’agrandir chaque jour. Il vous permet de partager facilement des données avec n’importe qui, depuis n’importe où.
En savoir plus sur le partage de données sur Databricks
Inscrivez-vous sur la liste d’attente de Delta Sharing de Databricks pour bénéficier d’un accès en avant-première et de mises à jour.