Streaming de données

Simplifiez l'analytique en temps réel, le ML et les applications

Démarrer Regarder la démo

MarketScape IDC 2024 : Traitement analytique en streaming, Monde

Databricks nommé leader dans un rapport sur les plateformes de traitement en streaming.

La Databricks Data Intelligence Platform simplifie considérablement le streaming de données pour fournir de l'analytique, du machine learning et des applications en temps réel sur une seule et même plateforme.

Donnez à vos équipes data les moyens de créer des charges de travail de streaming avec les langages et les outils qu'elles connaissent déjà. Simplifiez le développement et les opérations en automatisant les phases de production associées à la création et à la maintenance des charges de travail de données en temps réel. Éliminez les silos en unifiant les données en streaming et en batch sur une même plateforme.

Créez plus rapidement des pipelines de streaming et des applications

Utilisez les langages et les outils que vous maîtrisez déjà avec des API unifiées de traitement batch et streaming dans SQL et Python. Mettez l'analytique, le ML et les applications en temps réel au service de l'ensemble de votre organisation.

Simplifiez les opérations grâce à l'automatisation des outils

Déployez facilement vos pipelines et applications en temps réel en production et bénéficiez d'une gestion simplifiée. Les outils automatisés simplifient l'orchestration des tâches, la tolérance aux pannes et le rétablissement, l'optimisation des performances ainsi que l'automatisation des contrôles et de l'évolutivité.

Unifiez la gouvernance de toutes vos données en temps réel sur vos différents clouds.

Unity Catalog fournit un modèle de gouvernance unifié pour l'ensemble de vos données batch et streaming, afin de simplifier la découverte, la consultation et le partage des données en temps réel.

Comment ça marche ?

Ingestion et transformation de données de streaming

Analytique, ML et applications en temps réel

Outils opérationnels automatisés

Moteur de traitement en streaming de nouvelle génération

Unification de la gouvernance et du stockage

Ingestion et transformation de données de streaming

Simplifiez l’ingestion et l’ETL des pipelines de données en streaming avec DLT. Exploitez une approche déclarative simple du data engineering pour permettre à vos équipes d'utiliser les langages et les outils qu’elles maîtrisent déjà, comme SQL et Python. Créez et exécutez des pipelines par batch et en streaming en un seul endroit avec des paramètres de rafraîchissement contrôlables et automatisés, ce qui permet de gagner du temps et de réduire la complexité opérationnelle. Quel que soit l’endroit où vous prévoyez d’envoyer vos données, gagnez du temps sur le nettoyage des données brutes en créant vos pipelines de streaming sur la plateforme Databricks Lakehouse.

De plus en plus d'unités commerciales utilisent la plateforme en self-service, ce qui était impossible auparavant. « Je suis extrêmement impressionnée par l'impact positif qu'a eu Databricks sur Columbia. »- Lara Minor, Senior Enterprise Data Manager, Columbia Sportswear

Analytique, ML et applications en temps réel

Avec le streaming de données, améliorez immédiatement la précision de votre analytique et de votre IA pour en exploiter tout le potentiel. Pour votre entreprise, les insights en temps réel découlent directement des pipelines de données en streaming. Que ce soit pour effectuer de l'analytique SQL ou des rapports BI, pour entraîner des modèles de ML ou créer des applications opérationnelles en temps réel, exploitez les données les plus récentes pour un triple bénéfice : des informations en temps réel, des prévisions plus précises et une prise de décision accélérée.

« Nous devons toujours fournir les données les plus récentes et les plus précises à nos partenaires commerciaux, sans quoi ils perdent confiance dans les insights... Le lakehouse Databricks a rendu extrêmement simple ce qui était auparavant impossible. »– Guillermo Roldán, Responsable de l'architecture, LaLiga Tech

Outils opérationnels automatisés

Lorsque vous créez et déployez des pipelines de données en streaming, Databricks automatise une grande part des tâches opérationnelles complexes requises pour le passage en production. La plateforme gère notamment la mise à l'échelle automatique de l'infrastructure sous-jacente, l'orchestration des dépendances du pipeline, la gestion et la correction des erreurs, l'optimisation des performances, etc.L'autoscaling amélioré optimise l’utilisation du cluster en allouant automatiquement des ressources de calcul à chaque charge de travail. Ces fonctionnalités, complétées par des tests automatiques de qualité des données et une gestion des exceptions, réduisent le temps nécessaire à la création et à la maintenance des outils opérationnels pour vous permettre de vous concentrer sur la valeur de vos données.

Moteur de traitement en streaming de nouvelle génération

Le Streaming structuré Spark est la technologie fondamentale à la base du streaming de données sur la plateforme lakehouse de Databricks. Il fournit une API unifiée pour le traitement en batch et en streaming. La plateforme lakehouse de Databricks est la meilleure façon d'exécuter vos charges de travail Apache Spark au sein d'un service géré affichant un taux de disponibilité prouvé de 99,95 %. Vos charges de travail Spark sont encore accélérées par Photon, le moteur lakehouse de nouvelle génération compatible avec les API Apache Spark. Il offre des performances records pour son coût et peut évoluer automatiquement pour prendre en charge des milliers de nœuds.

Unification de la gouvernance et du stockage

Avec le streaming de données sur Databricks, vous bénéficiez des composants fondamentaux de la plateforme Lakehouse : Unity Catalog et Delta Lake. Vos données brutes sont optimisées avec Delta Lake, le seul framework de stockage open source conçu de A à Z pour les données en streaming et en batch.Unity Catalog intègre une gouvernance détaillée pour toutes vos données et ressources d'IA. Il fournit un modèle cohérent pour la découverte, l'accès et le partage des données sur tous les clouds. Unity Catalog fournit également une prise en charge native de Delta Sharing, le premier protocole ouvert du secteur pour un partage de données simple et sécurisé avec d’autres organisations.

Intégrations

Offrez un maximum de flexibilité à vos équipes de données : appuyez-vous sur Partner Connect et notre écosystème de partenaires technologiques pour intégrer de manière transparente les outils les plus répandus de streaming.