Databricks Labs
Les Databricks Labs sont des projets créés par l'équipe de terrain pour aider les clients à mettre leurs cas d'utilisation en production plus rapidement !
DBX
Cet outil simplifie le processus de lancement et de déploiement de tâches dans plusieurs environnements. Il permet également de packager votre projet et de le livrer à votre environnement Databricks en respectant les versions. Conçu d'abord par ILD, il est fait pour être utilisé activement à la fois à l'intérieur des pipelines CI / CD et dans le cadre de l'outillage local pour un prototypage rapide.
Tempo
L'objectif de ce projet est de fournir une API pour manipuler des séries temporelles au-dessus d'Apache Spark™. Les fonctionnalités comprennent la featurisation à l'aide de valeurs temporelles décalées, de statistiques glissantes (moyenne, moyenne, somme, nombre, etc.), de jointures AS OF, ainsi que le sous-échantillonnage et l'interpolation. Cette méthode a été testée sur des données historiques à l'échelle du TB.
Mosaïque
Mosaic est un outil qui simplifie la mise en œuvre de pipelines de données géospatiales évolutifs en liant des bibliothèques géospatiales open source communes et Apache Spark™️. Mosaic fournit également une série d'exemples et de bonnes pratiques pour les cas d'utilisation géospatiale les plus courants. Il fournit des API pour les expressions ST_ et les expressions GRID_, prenant en charge les systèmes d'indexation de grille tels que H3 et British National Grid.
Autres projets
Surveillance
Analysez l'ensemble de vos tâches et clusters dans tous vos workspaces afin d'identifier rapidement les points sur lesquels vous pouvez apporter les principaux ajustements pour gagner en performance et faire des économies.
Intégration de Splunk
Add-on pour Splunk, une application qui permet aux utilisateurs de Splunk Enterprise et Splunk Cloud de lancer des requêtes et d'exécuter des actions, telles que l'exécution de Notebook et Job, dans Databricks.
Smolder
Smolder fournit une source de données Apache Spark™ SQL pour le chargement des données des DSE à partir des formats de message HL7v2 . En outre, Smolder fournit des fonctions d'aide qui peuvent être utilisées sur un DataFrame SQL Spark pour analyser le texte d'un message HL7 et pour extraire des segments, des champs et des sous-champs d'un message.
Geoscan
Apache Spark ML Estimator for density-based spatial cluster based on Hexagonal Hierarchical Spatial Indices.
Migrer
Outil pour aider les clients à migrer les artefacts entre les workspaces Databricks. Il permet aux clients d'exporter les configurations et les artefacts de code en tant que sauvegarde ou dans le cadre d'une migration vers un workspace différent.
Sources Github
En savoir plus : AWS | Azure
Générateur de données
Générez rapidement des données pertinentes pour vos projets. Le générateur de données Databricks peut être utilisé pour générer de grands ensembles de données simulées / synthétiques pour des tests ou encore pour des POC
DeltaOMS
Collecte centralisée des journaux de transactions Delta pour l'analyse des métadonnées et des mesures opérationnelles de votre Lakehouse.
DLT-META
Ce cadre facilite l'acquisition de données à l'aide de delta live table et de métadonnées. Avec DLT-META, un seul ingénieur de données peut facilement gérer des milliers de tables. Plusieurs clients de Databricks ont DLT-META en production pour traiter plus de 1000 tables.
Veuillez noter que tous les projets du site https://github.com/databrickslabs sont fournis à des fins d'exploration uniquement et ne sont pas officiellement pris en charge par Databricks dans le cadre d'accords de niveau de service (SLA). Elles sont fournies en l'état et nous ne donnons aucune garantie. Veuillez ne pas soumettre de ticket d'assistance pour tout problème lié à l'utilisation de ces projets. Tout problème découvert lors de l'utilisation de ce projet doit être classé en tant que GitHub Issues sur la Repo. Ils seront examinés lorsque le temps le permettra, mais il n'y a pas d'accords de niveau de service formels pour l'assistance.