Revenir au contenu principal

Databricks Labs

Les Databricks Labs sont des projets créés par l'équipe de terrain pour aider les clients à mettre leurs cas d'utilisation en production plus rapidement !

Icône DBX

DBX

Cet outil simplifie le processus de lancement et de déploiement de tâches dans plusieurs environnements. Il permet également de packager votre projet et de le livrer à votre environnement Databricks en respectant les versions. Conçu d'abord par ILD, il est fait pour être utilisé activement à la fois à l'intérieur des pipelines CI / CD et dans le cadre de l'outillage local pour un prototypage rapide.

Sources GitHub →

Documentation →

Blog →

Graphique Tempo

Tempo

L'objectif de ce projet est de fournir une API pour manipuler des séries temporelles au-dessus d'Apache Spark™. Les fonctionnalités comprennent la featurisation à l'aide de valeurs temporelles décalées, de statistiques glissantes (moyenne, moyenne, somme, nombre, etc.), de jointures AS OF, ainsi que le sous-échantillonnage et l'interpolation. Cette méthode a été testée sur des données historiques à l'échelle du TB.

Sources GitHub →

Documentation →

Webinaire →

Logo mosaïque

Mosaïque

Mosaic est un outil qui simplifie la mise en œuvre de pipelines de données géospatiales évolutifs en liant des bibliothèques géospatiales open source communes et Apache Spark™️. Mosaic fournit également une série d'exemples et de bonnes pratiques pour les cas d'utilisation géospatiale les plus courants. Il fournit des API pour les expressions ST_ et les expressions GRID_, prenant en charge les systèmes d'indexation de grille tels que H3 et British National Grid.

Sources GitHub →

Documentation →

Blog →

Autres projets

Surveillance

Analysez l'ensemble de vos tâches et clusters dans tous vos workspaces afin d'identifier rapidement les points sur lesquels vous pouvez apporter les principaux ajustements pour gagner en performance et faire des économies.

En savoir plus

Intégration de Splunk

Add-on pour Splunk, une application qui permet aux utilisateurs de Splunk Enterprise et Splunk Cloud de lancer des requêtes et d'exécuter des actions, telles que l'exécution de Notebook et Job, dans Databricks.

Sources Github →
En savoir plus →

Smolder

Smolder fournit une source de données Apache Spark™ SQL pour le chargement des données des DSE à partir des formats de message HL7v2 . En outre, Smolder fournit des fonctions d'aide qui peuvent être utilisées sur un DataFrame SQL Spark pour analyser le texte d'un message HL7 et pour extraire des segments, des champs et des sous-champs d'un message.

Sources Github →
En savoir plus →

Geoscan

Apache Spark ML Estimator for density-based spatial cluster based on Hexagonal Hierarchical Spatial Indices.

Sources Github →
En savoir plus →

Migrer

Outil pour aider les clients à migrer les artefacts entre les workspaces Databricks. Il permet aux clients d'exporter les configurations et les artefacts de code en tant que sauvegarde ou dans le cadre d'une migration vers un workspace différent.

Sources Github
En savoir plus : AWS | Azure

Générateur de données

Générez rapidement des données pertinentes pour vos projets. Le générateur de données Databricks peut être utilisé pour générer de grands ensembles de données simulées / synthétiques pour des tests ou encore pour des POC

Sources Github →
En savoir plus →

DeltaOMS

Collecte centralisée des journaux de transactions Delta pour l'analyse des métadonnées et des mesures opérationnelles de votre Lakehouse.

Sources Github →
En savoir plus →

DLT-META

Ce cadre facilite l'acquisition de données à l'aide de delta live table et de métadonnées. Avec DLT-META, un seul ingénieur de données peut facilement gérer des milliers de tables. Plusieurs clients de Databricks ont DLT-META en production pour traiter plus de 1000 tables.

Sources Github →
En savoir plus →

Veuillez noter que tous les projets du site https://github.com/databrickslabs sont fournis à des fins d'exploration uniquement et ne sont pas officiellement pris en charge par Databricks dans le cadre d'accords de niveau de service (SLA). Elles sont fournies en l'état et nous ne donnons aucune garantie. Veuillez ne pas soumettre de ticket d'assistance pour tout problème lié à l'utilisation de ces projets. Tout problème découvert lors de l'utilisation de ce projet doit être classé en tant que GitHub Issues sur la Repo. Ils seront examinés lorsque le temps le permettra, mais il n'y a pas d'accords de niveau de service formels pour l'assistance.