FAQ de Databricks

Notions de base


L'entreprise sait que les données cachent un véritable trésor, et la mission de votre équipe est de le trouver. Mais il est difficile de jouer les détectives avec un paquet d'outils mal conçus et une infrastructure pénible à installer. Vous voulez devenir le héros capable de comprendre tout ce qui se passe dans l'entreprise, mais vous passez l'essentiel de votre temps à vous battre avec vos outils.

Nous avons conçu Databricks pour simplifier le big data. Apache Spark™ a effectué une avancée considérable dans cette direction en fournissant une infrastructure unifiée pour la conception de pipelines de données. Databricks pousse le concept plus loin en fournissant une plateforme de cloud sans gestion requise, conçue sur une base Spark et proposant 1) des grappes Spark entièrement managées, 2) un espace de travail interactif pour l'exploration et la visualisation, 3) un planificateur de pipelines de production et enfin 4) une plateforme pour alimenter vos applications préférées basées sur Spark. Ainsi, au lieu d'être un sujet de migraines, les données vous permettent enfin de vous concentrer sur la recherche de solutions à l'effet immédiatement mesurable pour votre entreprise.

À quiconque veut extraire de la valeur de son contenu big data, rapidement et efficacement, qu'il s'agisse de data scientists, d'ingénieurs, de développeurs ou encore d'analystes data. Grâce à l'espace de travail interactif mettant en avant les interfaces R, Scala, Python et SQL natives de Spark, à une API REST pour l'accès programmatique à distance, à la possibilité d'exécuter des tâches Spark arbitraires développées hors-ligne et à une prise en charge fluide d'applications tierces telles que les outils de BI ou spécifiques à un domaine précis, Databricks permet à ses utilisateurs d'utiliser l'interface avec laquelle ils sont le plus à l'aise pour consommer les données et les informations.

Databricks est utilisé par des entreprises issues d'une large gamme de secteurs, notamment dans les services financiers, la santé, la vente au détail, les médias et le divertissement ou encore les infrastructures publiques. À ce jour, nous avons pu observer des clients utiliser notre plateforme pour des cas très variés, notamment dans l'ETL de base, l'exploration et la découverte des données, l'entreposage des données, le déploiement de produits dans le domaine du data ou encore dans la publication d'informations exploitant des tableaux de bord, à usage aussi bien interne qu'externe.

Tout à fait. Les entreprises accumulent aujourd'hui d'énormes quantités de données, mais le processus d'analyse en big data entraîne lui-même un certain nombre d'obstacles, allant des besoins de gérer les infrastructures à l'adaptation aux goulets d'étranglement, en passant par des coûts d'acquisition et de gestion élevés. Databricks est conçu pour mettre fin à ces difficultés. Notre objectif est de rendre le big data facile d'accès aux entreprises, pour que l'exploitation de ces données soit aussi banale que l'utilisation d'outils bureautiques actuels tels qu'Excel.

Databricks a été conçu par l'équipe à l'origine du projet de recherche Spark à l'Université de Californie à Berkeley, qui deviendra plus tard Apache Spark™. Databricks collabore avec la communauté open-source pour donner au projet toujours plus d'envergure. Nous avons contribué au code de Spark plus que n'importe quelle autre entreprise. Nous fournissons également des programmes de certification Databricks pour les formateurs, distributeurs, applications, intégrateurs systèmes et développeurs Spark. Enfin, nous avons développé Databricks, une plateforme d'analyses unifiées qui accélère l'innovation en unifiant science des données, ingénierie et entreprise.

Disponibilité


La tarification de Databricks est détaillée sur notre page de tarification.

Oui, Databricks est accessible au public. De nombreuses entreprises clientes tirent aujourd'hui parti de Databricks pour exécuter des tâches en production à grande échelle, et ce dans une vaste gamme de secteurs et de cas d'utilisation. Démarrez ici.

Oui, Databricks facilite le développement, le test et le déploiement d'applications Apache Spark. Notre solution intègre la connectivité ODBC/JDBC, l'API Spark standard ainsi qu'une API REST native pour les applications tierces.

Questions techniques


Actuellement, Databricks prend en charge l'envoi de fichiers par navigateur, la récupération de données depuis Azure Blob Storage, AWS S3, Azure SQL Data Warehouse, Azure Data Lake Storage, les banques de données NoSQL telles que Cosmos DB, Cassandra, Elasticsearch, les sources de données JDBC, HDFS, Sqoop et diverses autres sources de données prises en charge nativement par Apache Spark.

La sécurité et la tolérance de panne sont des priorités absolues pour Databricks. Notre produit a donc été conçu dès le départ en intégrant les mécanismes d'isolation et d'authentification que nous sommes en droit d'attendre. Pour plus d'informations, rendez-vous sur notre page sécurité

Databricks fonctionne à 100 % sur une base Apache Spark. Par conséquent, tout code ou application développé sur Databricks peut s'exécuter sur n'importe quelle distribution compatible Apache Spark (notamment toutes les distributions certifiées Databricks).

Déploiement


À ce jour, Databricks est disponible sur Microsoft Azure et Amazon AWS.

Oui, Databricks est intégralement déployé au sein de son propre VPC, sur votre compte, pour fournir une couche supplémentaire de sécurité et d'isolation.

Non, pas pour le moment. Cependant, nous travaillons constamment sur de nouveaux scénarios de déploiement, certains prévoyant l'utilisation de grappes sur site.

Sécurité


Les données des utilisateurs de Databricks sont lues depuis et persistent dans leurs propres dépôts de données, avec leurs propres identifiants.

Non, il n'est pas nécessaire de transférer les données vers Databricks. Dans la plupart des situations, il est possible d'accéder à vos données depuis leurs sources actuelles.

Vous contrôlez l'accès à vos données et notebooks au sein de votre organisation en ajoutant des utilisateurs à votre compte Databricks. Toute personne ajoutée à votre compte Databricks aura accès à la plateforme.

Vous trouverez plus d'informations sur notre page sécurité.

Databricks peut vous proposer de déployer une infrastructure exclusivement pour votre usage. En mode utilisateur unique, tous les services Databricks seront exécutés dans un VPC séparé qui vous est spécialement dédié et est totalement isolé des autres utilisateurs. Vous pouvez associer votre VPC à celui de Databricks pour connecter et lancer des grappes dans votre propre compte AWS.

Nos clients gardent le contrôle et la propriété de leurs données. Consultez les conditions d'utilisation de Databricks et notre politique de confidentialité pour plus d'informations.

Databricks a d'ores et déjà mis en œuvre sa propre architecture de sécurisation à partir des bonnes pratiques du secteur. Nous travaillons par ailleurs en permanence à atteindre les plus hautes normes, telles que les 20 mesures principales pour la sécurité sur internet du SANS, les lignes directrices dites « Consensus Audit Guidelines », les lignes directrices du NIST et les standards internet.

Databricks maintient également une entreprise de sécurité visant à identifier régulièrement les problèmes de sécurité au niveau de l'application ou du réseau susceptibles de mettre en danger l'intégrité de Databricks.

AWS propose son propre programme de continuité des opérations (media.amazonwebservices.com/AWS_Disaster_Recovery.pdf) et Databricks est conçu pour s'exécuter depuis de nombreuses régions, zones de disponibilité, ou centres de données.

Nous proposons un guide d'introduction à la sécurité très complet. Nous vous invitons également à nous faire part de vos questions à l'adresse sales@databricks.com