Centre sécurité et confiance

La sécurité de vos données est notre priorité.

image d'arrière-plan

Nous savons à quel point les données font partie de vos assets les plus précieux et doivent toujours être protégées. C'est pourquoi la sécurité est intégrée à tous les niveaux de la plateforme Lakehouse de Databricks. Notre transparence vous permet de répondre à vos besoins en réglementation tout en profitant de notre plateforme.

Effectuez votre propre examen de sécurité en libre-service de Databricks à l'aide de notre package de due diligence, qui comprend de la documentation et des supports de conformité.
Accenture
Wehkamp Logo
Wehkamp Logo
« Grâce à une administration et à une gouvernance simplifiées, la plateforme Databricks a permis à nos équipes de prendre des décisions fondées sur les données au sein de notre organisation. La facilité d'ajout d'utilisateurs ainsi que la disponibilité d'intégrations de sécurité natives avec les fournisseurs de cloud et les API pour tout type d'usage nous ont permis d'apporter les données et les outils nécessaires à chaque collaborateur de Wehkamp. »

— Tom Mulder, Lead Data Scientist chez Wehkamp

Adren Street Labs
Wehkamp Logo
Wehkamp Logo
« Nous avons développé près d'une dizaine de solutions, toutes principalement basées sur Azure Databricks. Cela nous a permis d'exploiter un modèle de déploiement rapide du laboratoire aux opérations, tout en maintenant la sécurité des données et l'évolutivité informatique. »

— Jeff Feldman, CTO d'Arden Street Labs

Credit Suisse
Wehkamp Logo
Wehkamp Logo
“Despite the increasing embrace of big data and AI, most financial services companies still experience significant challenges around data types, privacy and scale. Credit Suisse is overcoming these obstacles by standardizing on open, cloud-based platforms, including Azure Databricks, to increase the speed and scale of operations and ML across the organization.”

— Credit Suise case study

image d'arrière-plan

Confiance

Notre plateforme de confiance repose sur l'intégration de la sécurité à toutes les étapes du développement et de la livraison des solutions. Nous adoptons des pratiques rigoureuses en matière de sécurité opérationnelle telles que les tests d'intrusion, les évaluations des vulnérabilités et les contrôles d'accès internes renforcés. Nous pensons que la confiance se gagne par la transparence. Ainsi nous communiquons publiquement sur notre mode opératoire et travaillons en étroite collaboration avec nos clients et partenaires pour répondre à leurs besoins en matière de sécurité.

Engagement contractuel

En plus de la documentation et de bonnes pratiques que vous trouverez sur notre Centre sécurité et confiance, nous offrons également à tous nos clients un engagement contractuel de sécurité. Cet engagement est repris dans l'Addenda sur la sécurité qui est inclus dans nos contrats clients. L'Addenda sur la sécurité définit très clairement un ensemble de mesures et de pratiques de sécurité que nous adoptons pour assurer la sécurité de vos données.

Gestion des vulnérabilités

Les fournisseurs de solutions ou de services sont responsables de la détection et de la réparation rapide des technologies vulnérables, que la vulnérabilité réside dans votre code ou dans l'outil que vous utilisez. Nous prenons cette responsabilité très au sérieux ; notre Addenda sur la sécurité vous informe sur nos délais de réparation.

En interne, nous utilisons plusieurs outils d'analyse de sécurité bien connus pour identifier les vulnérabilités au sein de la plateforme. Databricks utilise également des services tiers pour analyser nos sites Internet publics et identifier les risques. Les vulnérabilités de sévérité 0, telles que les jours zéro dont on sait qu'elles sont activement exploitées, sont traitées avec la plus grande urgence, et leur réparation est prioritaire par rapport à tous les autres déploiements.

Tests d'intrusion et bug bounty

Nous effectuons des tests d'intrusion grâce à l'alliance d'une équipe de sécurité offensive en interne, de testeurs d'intrusion tiers qualifiés et d'un programme annuel de bug bounty public. Nous effectuons généralement entre 8 et 10 tests d'intrusion par des tiers externes et entre 15 et 20 tests d'intrusion internes par an. Nous publions un rapport de test tiers sur l'ensemble de la plateforme, lequel fait partie de notre package de due diligence.

Notre objectif est d'aider nos clients à gagner en confiance dans les charges de travail qu'ils exécutent sur Databricks. Si votre équipe souhaite effectuer un test d'intrusion sur Databricks, nous vous conseillons :

  • D'exécuter des scans de vulnérabilité au sein des systèmes de plans de données situés dans votre compte de fournisseur de services cloud.
  • D'exécuter des tests par rapport à votre propre code, à condition que ces tests soient entièrement contenus dans le plan de données (ou d'autres systèmes) situé dans le compte de votre fournisseur de services cloud et qu'ils évaluent vos propres contrôles.
  • De participer au programme de bug bounty.

Rejoignez le programme Databricks Bug Bounty organisé via HackerOne et accédez à un déploiement de Databricks qui n'est pas utilisé par les clients en direct.

Accès interne

Nous appliquons des politiques et des contrôles stricts concernant l'accès des salariés internes à nos systèmes de production et à nos environnements et données clients.

Nous exigeons une authentification multifactorielle pour accéder aux consoles d'infrastructure de base telles que les consoles des fournisseurs de services cloud (AWS, GCP et Azure). Les politiques et procédures de Databricks ont pour but d'éviter, dans la mesure du possible, l'utilisation d'identifiants explicites, tels que des mots de passe ou des clés API. Par exemple, seuls les membres de sécurité désignés peuvent traiter les demandes d'exception pour de nouveaux principes ou politiques AWS IAM.

Les salariés de Databricks peuvent accéder à un système de production dans des circonstances très précises. Tout accès exige une authentification via un système basé sur Databricks qui valide l'accès et effectue des vérifications de procédure. Les salariés doivent utiliser notre VPN, et notre solution d'authentification unique nécessite une authentification multifactorielle.
En savoir plus →

Nos normes de sécurité internes mettent en œuvre autant que possible la séparation des tâches. Par exemple, nous centralisons le processus d'authentification et d'autorisation de notre fournisseur d'identité cloud pour séparer l'autorisation d'accès (Marie doit accéder à un système) de l'octroi d'accès (Marie peut désormais accéder à un système).

Nous donnons la priorité à l'accès le moins privilégié, tant dans les systèmes internes que pour notre accès aux systèmes de production. Le moindre privilège est explicitement intégré à nos politiques internes et se retrouve dans nos procédures. Par exemple, la plupart des clients peut contrôler l'accès des salariés de Databricks à leur workspace. Ainsi, nous appliquons automatiquement de nombreuses vérifications avant que l'accès ne puisse être accordé et révoquons automatiquement l'accès après une période limitée.
En savoir plus →

Cycle de vie sécurisé du développement d'une solution

Databricks dispose d'un cycle de vie du développement de solution (SDLC) qui intègre la sécurité à toutes les étapes, depuis les demandes de fonctionnalités jusqu'au monitoring de la production. Il s'appuie sur des outils conçus pour suivre une fonctionnalité tout au long de son cycle de vie. Nous proposons une analyse automatique de la sécurité des systèmes, des bibliothèques et du code, ainsi qu'un suivi automatisé des vulnérabilités.

Databricks s'appuie sur un Portail d'idées qui effectue un suivi des demandes de fonctionnalités et permet aux clients et aux salariés de voter. Notre processus de conception des fonctionnalités inclut la confidentialité et la sécurité dès la conception. Après une évaluation initiale, les fonctionnalités à forte incidence sont soumises à un examen de la conception de la sécurité de la part d'un expert sécurité en data engineering. Il procèdera aussi à la modélisation des menaces et à d'autres contrôles en lien avec la sécurité.

Nous utilisons une méthodologie de développement souple et répartissons les nouvelles fonctionnalités en plusieurs sprints. Databricks ne sous-traite pas le développement de la plateforme Databricks. Tous les développeurs doivent suivre une formation sur le développement de solutions sécurisées, y compris le Top 10 de l'OWASP au moment de leur embauche et chaque année par la suite. Les environnements et données de production sont séparés des environnements de développement, d'assurance qualité et de préproduction. Tout le code est enregistré dans un système de contrôle des sources qui exige une authentification multifactorielle unique, avec des autorisations granulaires. La fusion du code est soumise à l'approbation des responsables de l'ingénierie fonctionnelle de chaque domaine concerné, et tout le code fait l'objet d'un examen collégial.

Nous effectuons des contrôles de qualité (tels que des tests unitaires et des tests de bout en bout) à plusieurs étapes du processus SDLC : lors de la fusion du code, après la fusion du code, à la sortie d'une version et en production. Nos tests comprennent des tests positifs, des tests de régression et des tests négatifs. Une fois le déploiement terminé, nous disposons d'un monitoring étendu pour identifier les défaillances, et les utilisateurs peuvent recevoir des alertes sur la disponibilité du système via la Page d'état. En cas de problème P0 ou P1, l'automatisation Databricks déclenche une méthodologie d'analyse des causes profondes « 5 pourquoi » qui sélectionne un membre de l'équipe postmortem pour superviser l'examen et effectuer un suivi.

Nous utilisons les meilleurs outils pour identifier le code ou les packages vulnérables. L'automatisation dans un environnement de préproduction exécute des scans de vulnérabilité du système d'exploitation et des packages installés sur l'hôte et le conteneur authentifiés, ainsi que des scans d'analyse de code dynamiques et statiques. Des tickets de data engineering sont créés automatiquement pour toute vulnérabilité et sont assignés aux équipes compétentes. L'équipe de sécurité des produits trie également les vulnérabilités critiques afin d'évaluer leur gravité dans l'architecture Databricks.

Databricks dispose d'un processus de gestion formelle des versions qui comprend un cadre décisionnel de feu vert/rouge avant le lancement d'une version de code. Les changements sont soumis à des tests conçus pour éviter les régressions et valider le fait que les nouvelles fonctionnalités ont été testées sur des charges de travail réalistes. En outre, le déploiement se fait par étapes, avec un monitoring qui permet d'identifier les problèmes à un stade précoce. Pour mettre en œuvre la séparation des tâches, seul notre système de gestion des déploiements peut mettre les changements en production. Nous exigeons l'approbation de plusieurs personnes pour tous les déploiements.

Nous suivons le modèle d'infrastructure immuable dans lequel les systèmes sont remplacés plutôt que corrigés afin d'améliorer la fiabilité et la sécurité en évitant le risque de dérives de configuration. Lors du lancement de nouvelles images système ou d'un nouveau code d'application, nous transférons les charges de travail vers de nouvelles instances avec le nouveau code. Cela s'applique aussi bien au plan de contrôle qu'au plan de données (voir la section "Caractéristiques de sécurité" pour en savoir plus sur l'architecture Databricks). Une fois le code en production, un processus de vérification confirme que des artefacts n'ont pas été ajoutés, supprimés ou modifiés.

La dernière phase du processus SDLC est la création d'une documentation destinée aux clients. Les documents Databricks sont gérés de la même manière que le code : la documentation est stockée au sein du même système de contrôle des sources. Toute modification importante est soumise à une révision technique et à une révision de l'équipe chargée des documents avant de pouvoir les fusionner et les publier.
Consulter la documentation →

image d'arrière-plan
Accès réseau Cloud

Possibilité de déployer dans un VPC/VNet que vous gérez et sécurisez. Par défaut, il n'y a aucune connexion réseau entrante au plan de données.

AWS, Azure

Accès privé (ou lien privé) de l'utilisateur ou des clients vers l'interface utilisateur et les API du plan de contrôle Databricks

AWS, Azure

Accès privé (ou lien privé) du plan de données classique au plan de contrôle Databricks

AWS, Azure

Accès privé (ou lien privé) du plan de données classique aux données de la plateforme cloud

AWS, Azure

Listes d'accès IP pour contrôler l'accès à l'interface utilisateur du plan de contrôle et aux API de Databricks via Internet

AWS, Azure, GCP

Pare-feux automatiques basés sur l'hôte qui limitent la communication

AWS, Azure, GCP

Administration des utilisateurs et des groupes Cloud

Utilisez la gestion des identités du fournisseur de services cloud pour une intégration transparente avec les ressources cloud.

AWS, Azure, GCP

Prise en charge des politiques de contrôle d'accès d'Azure Active Directory

Azure (AWS / GCP non applicable)

Provisionnement SCIM pour gérer les identités et groupes d'utilisateur

AWS, Azure, GCP

Authentification unique avec intégration du fournisseur d'identités (vous pouvez activer l'authentification multifactorielle via le fournisseur d'identités)

AWS (Azure / GCP non applicable*)

Principes de service ou comptes de service pour gérer les identités des applications à des fins d'automatisation

AWS, Azure, GCP

Verrouillage du compte utilisateur pour désactiver temporairement l'accès d'un utilisateur à Databricks

AWS (Azure / GCP non applicable*)

Désactiver les mots de passe locaux avec l'autorisation de mot de passe

AWS (Azure / GCP non applicable*)

Gestion des accès Cloud

Contrôle détaillé de l'accès basé sur les autorisations appliqué à tous les objets Databricks, y compris les workspaces, les tâches, les notebooks et SQL

AWS, Azure, GCP

Accès sécurisé à l'API par des jetons d'accès individuels avec gestion des autorisations

AWS, Azure, GCP

Prise en charge des jetons OAuth

Azure, GCP

Segmentation des utilisateurs, des charges de travail et des données avec différents profils de sécurité dans plusieurs workspaces

AWS, Azure, GCP

Sécurité des données Cloud

Chiffrement des données du plan de contrôle au repos

AWS, Azure, GCP

Chiffrement possible des clés gérées par le client

AWS, Azure

Chiffrement en transit de toutes les communications entre le plan de contrôle et le plan de données

AWS, Azure, GCP

Chiffrement spark en transit intracluster ou chiffrement en transit optimisé par la plateforme

AWS, Azure

Sécurité et masquage approfondis des données grâce aux vues dynamiques

AWS, Azure, GCP

Gouvernance affinée des données grâce au Unity Catalog

Bientôt disponible

Contrôles d'administration pour limiter le risque d'exfiltration de données

AWS, Azure, GCP

Sécurité des charges de travail Cloud

Gestion efficace des versions de code grâce aux dépôts

AWS, Azure, GCP

Gestion intégrée des secrets pour éviter de coder en dur les identifiants

AWS, Azure, GCP

Image de machine de plans de données gérée régulièrement mise à jour avec des correctifs, des scans de sécurité et un renforcement de base

AWS, Azure (GCP non applicable)

Limiter les coûts, renforcer la sécurité et les besoins de validation grâce aux politiques de cluster

AWS, Azure, GCP

Infrastructure immuable et éphémère pour éviter les dérives de configuration

AWS, Azure, GCP

Audit et journalisation Cloud

Journalisation d'audit complète et configurable des activités des utilisateurs de Databricks

AWS, Azure, GCP

Journalisation de l'historique des commandes Databricks SQL

AWS, Azure

Journalisation du cluster Databricks

AWS, Azure

Validations de la sécurité (conformité) Cloud

Conformité ISO 27001, 27017, 27018

AWS, Azure, GCP

Rapport SOC 2 type 2 disponible

AWS, Azure, GCP

Conformité RGPD et CCPA

AWS, Azure, GCP

Déploiements conformes PCI DSS

AWS (réservé à un utilisateur unique)

Conformité FedRAMP modérée

AWS bientôt disponible, Azure

Conformité FedRAMP élevée

Azure

Déploiements conformes HIPAA

AWS, Azure

HITRUST

Azure

* Azure Databricks est intégré à Azure Active Directory, et Databricks sur GCP est intégré à Google Identity. Vous ne pouvez pas les configurer dans Databricks, mais vous pouvez configurer Azure Active Directory ou Google Identity selon vos besoins.

Architecture de la plateforme

L'architecture Lakehouse de Databricks est divisée en deux plans distincts pour simplifier vos autorisations, éviter la duplication des données et réduire les risques. Le plan de contrôle est le plan de gestion dans lequel Databricks exécute l'application du workspace et gère les notebooks, la configuration et les clusters. À moins que vous ne choisissiez d'utiliser le calcul serverless, le plan de données s'exécute dans votre compte de fournisseur de services cloud, traitant ainsi vos données sans les déconnecter de votre compte. Vous pouvez intégrer Databricks à votre architecture de protection contre l'exfiltration de données en utilisant des fonctionnalités telles que les VPC/VNets gérés par le client et des options de console d'administration qui désactivent l'exportation.

Bien que certaines données, telles que vos notebooks, configurations, journaux et informations utilisateurs, soient présentes dans le plan de contrôle, ces informations sont chiffrées au repos dans le plan de contrôle, et la communication vers et depuis le plan de contrôle est chiffrée en transit. Vous avez également plusieurs choix pour l'emplacement de certaines données : vous pouvez héberger votre propre magasin de métadonnées sur vos tables de données (Hive Metastore), stocker les résultats des requêtes dans votre compte de fournisseur de services cloud et décider d'utiliser ou non l'API Databricks Secrets.

Supposons que vous ayez un ingénieur data qui se connecte à Databricks et écrit un notebook qui transforme les données brutes dans Kafka en un jeu de données normalisé envoyé à un stockage tel qu'Amazon S3 ou Azure Data Lake Storage. Il le fera en six étapes :

  1. L'ingénieur data s'authentifie en toute transparence, le cas échéant via votre authentification unique, sur l'interface utilisateur Web Databricks dans le plan de contrôle, hébergée dans le compte Databricks.
  2. Lorsque l'ingénieur data écrit du code, son navigateur Internet l'envoie au plan de contrôle. Les demandes JDBC/ODBC suivent également le même chemin, en s'authentifiant à l'aide d'un jeton.
  3. Une fois prêt, le plan de contrôle utilise les API du fournisseur de services cloud afin de créer un cluster Databricks, composé de nouvelles instances du plan de données, dans votre compte CSP. Les administrateurs peuvent appliquer des politiques de cluster afin d'exécuter des profils de sécurité.
  4. Une fois les instances lancées, le gestionnaire de cluster envoie le code de l'ingénieur data au cluster.
  5. Le cluster extrait de Kafka vers votre compte, transforme les données et les écrit dans un stockage de votre compte.
  6. Le cluster signale le statut et les sorties au gestionnaire de cluster.

L'ingénieur data peut éviter de se pencher sur bon nombre de détails : il lui suffit d'écrire le code et Databricks l'exécute.

Conformité

Des clients du monde entier nous confient leurs données les plus sensibles. Databricks a mis en place des contrôles afin de répondre aux exigences particulières de conformité de certains secteurs d'activité fortement réglementés.

Package de due diligence

Pour les examens de sécurité en libre-service, vous pouvez télécharger notre package de due diligence. Il comprend les documents de conformité courants tels que nos certifications ISO et notre lettre de confirmation du test d'intrusion annuel. Vous pouvez également contacter l'équipe de votre compte Databricks pour obtenir des copies de notre Guide de sécurité en entreprise et du rapport SOC 2 type II.

Télécharger

Certifications et normes

image d'arrière-plan

Vue d'ensemble

Databricks prend la confidentialité très au sérieux. Nous savons à quel point les données que vous analysez à l'aide de Databricks sont importantes à la fois pour votre organisation et pour vos clients. Elles peuvent aussi être soumises à diverses lois et réglementations en matière de confidentialité.

Pour vous aider à comprendre comment Databricks s'inscrit dans les cadres réglementaires qui peuvent s'appliquer à vous, voici une FAQ sur la confidentialité et des documents qui exposent en toute transparence la façon dont Databricks aborde la confidentialité.

image d'arrière-plan

Aider à enquêter sur un incident de sécurité dans votre workspace Databricks

Si vous pensez que les données de votre workspace ont été compromises ou que vous avez remarqué des incohérences ou des inexactitudes parmi vos données, veuillez le signaler à Databricks dès que possible.

Signaler les spams ou les messages suspects provenant de Databricks

Si vous avez reçu un spam ou un message que vous pensez frauduleux, ou qui inclut un logiciel malveillant ou un contenu inapproprié, veuillez contacter Databricks dès que possible.

Comprendre un rapport interne de scan des vulnérabilités par rapport à un produit Databricks

Pour obtenir de l'aide dans l'analyse d'un rapport de scan des vulnérabilités, veuillez adresser une demande à votre canal d'assistance Databricks en indiquant la version du produit, toute configuration particulière, le résultat concerné du rapport et la manière dont le scan a été effectué.

Comprendre l'impact d'un CVE sur un workspace ou un runtime Databricks

Si vous avez besoin d'informations sur l'impact d'un CVE tiers ou d'un CVE Databricks, veuillez soumettre une demande à votre canal d'assistance Databricks et fournir la description, la gravité et les références du CVE disponibles dans la base de données nationale des vulnérabilités

Signaler un bug au sein des produits ou services de Databricks

Si vous avez découvert une vulnérabilité reproductible dans l'un de nos produits, vous devez nous la signaler afin que nous puissions la résoudre. Veuillez rejoindre notre programme public de bug bounty organisé par HackerOne.

image d'arrière-plan

HIPAA

La loi HIPAA est une réglementation américaine qui comprend diverses protections relatives aux informations médicales confidentielles. Databricks offre des options de déploiements conformes à l'HIPAA.

Clouds pris en charge

Régions

Azure multilocataire — Toutes les régions

AWS monolocataire — Toutes les régions

AWS multilocataire — us-east-1, us-east-2, ca-central-1, us-west-2