Databricks Labs

Databricks Labs sind Projekte, die aus der Praxis stammen und Kunden bei der Umsetzung von Anwendungsfällen in der Produktion unterstützen sollen

DQX

Vereinfachte Prüfung der Datenqualität in großem Maßstab für PySpark-Workloads auf Streaming- und Standard-DataFrames.

GitHub-Quellen →

Dokumentation →

Kasal

Kasal ist eine interaktive Low-Code-Lösung zum Erstellen und Bereitstellen von AI-Agenten auf der Databricks-Plattform.

GitHub-Quellen →

Dokumentation →

Lakebridge

Lakebridge ist die Migrationsplattform von Databricks, entwickelt, um Unternehmen eine umfassende End-to-End-Lösung zur Modernisierung vorhandener Data Warehouses und ETL-Systeme bereitzustellen. Lakebridge unterstützt eine breite Palette an Quellplattformen – darunter Teradata, Oracle, Snowflake, SQL Server, Informatica und mehr – und automatisiert alle Phasen des Migrationsprozesses: von Ermittlung und Bewertung über Code-Konvertierung und Datenübertragung bis zur Validierung. So wird für Unternehmen ein schneller, risikoarmer Übergang möglich, um in ihrer Datenlandschaft Innovation und Effizienz freizusetzen.

GitHub-Quellen →

Dokumentation →

Blog →

Weitere Projekte

Databricks MCP

Eine Sammlung von MCP-Servern, die AI-Agenten dabei unterstützt, Unternehmensdaten aus Databricks abzurufen und häufige Entwickleraufgaben in Databricks zu automatisieren.

GitHub-Quellen →

Dialog-Agent-App

Anwendung mit Chatoberfläche, die auf den Databricks Genie Conversation APIs basiert und speziell für die Ausführung als Databricks App entwickelt wurde.

GitHub-Quellen →

Wissensassistent-Chatbot-Anwendung

Beispiel einer Chatbot-Anwendung mit dem Databricks Knowledge Assistant.

GitHub-Quellen →

Feature-Registry-Anwendung

Die App bietet eine benutzerfreundliche Oberfläche, um vorhandene Funktionen in Unity Catalog zu erkunden. Außerdem können Nutzer Code generieren, um Feature-Spezifikationen und Trainingsdatensätze zu erstellen, Modelle für maschinelles Lernen zu trainieren und Features als Feature Serving Endpoints bereitzustellen.

GitHub-Quellen →

Mosaik

Mosaic ist ein Tool, das den Aufbau skalierbarer Geodaten-Pipelines vereinfacht, indem es gängige Open-Source-Bibliotheken für Geodaten mit Apache Spark™️ verbindet. Mosaic bietet außerdem eine Reihe von Beispielen und bewährten Vorgehensweisen für gängige Geodaten-Anwendungsfälle. Es bietet APIs für ST_-Ausdrücke und GRID_-Ausdrücke und unterstützt Gitterindexsysteme wie H3 und British National Grid.

GitHub-Quellen →

Dokumentation →

Blog →

DLT-META

Dieses Framework macht es einfach, Daten mithilfe von Delta Live Tables und Metadaten einzulesen. Mit DLT-META kann ein einzelner Data Engineer problemlos Tausende von Tabellen verwalten. Mehrere Databricks-Kunden setzen DLT-META produktiv ein, um über 1000 Tabellen zu verarbeiten.

Code auf GitHub →
Mehr erfahren →

Smolder

Smolder bietet eine Apache Spark™-SQL-Datenquelle zum Laden von EHR-Daten aus HL7v2-Nachrichtenformaten. Darüber hinaus implementiert Smolder Hilfsfunktionen, die auf einem Spark SQL-DataFrame zum Analysieren von HL7-Nachrichtentext und zum Extrahieren von Segmenten, Feldern und Unterfeldern aus einer Nachricht verwendet werden können.

Quellcode auf GitHub →
Mehr erfahren →

Geoscan

Apache Spark ML Estimator für dichtebasiertes räumliches Clustering auf Grundlage hexagonaler hierarchischer Raumindizes.

Quellcode auf Github →
Mehr erfahren →

Migrate

Tool zur Unterstützung von Kunden bei der Migration von Artefakten zwischen Databricks-Workspaces. So können Kunden Konfigurationen und Code-Artefakte als Backup oder als Teil einer Migration zwischen verschiedenen Workspaces exportieren.

GitHub-Quellen
Mehr erfahren: AWS | Azure

Data Generator

Erstellen Sie im Handumdrehen relevante Daten für Ihre Projekte. Mit dem Databricks-Datengenerator generieren Sie umfangreiche simulierte/synthetische Datenbestände für Tests, PoCs und weitere Einsatzzwecke.

Github-Quellen →
Mehr erfahren →

DeltaOMS

Zentralisierte Sammlung von Delta-Transaktionsprotokollen für die Analyse von Metadaten und Betriebsmetriken in Ihrem Lakehouse

GitHub-Quellen →
Mehr erfahren →

Splunk-Integration

Add-On für Splunk. Mit dieser App können Splunk Enterprise- und Splunk Cloud-Benutzer Abfragen und Aktionen, z. B. Notebooks und Jobs, in Databricks ausführen.

Quellcode auf GitHub →
Mehr erfahren →

DiscoverX

DiscoverX automatisiert administrative Aufgaben, die das Prüfen oder Ausführen von Aktionen an einer großen Zahl von Lakehouse-Ressourcen erfordern.

GitHub-Quellen →

brickster

{brickster} ist das R-Toolkit für Databricks und enthält:

Wrapper für Databricks-APIs (z. B. db_cluster_list, db_volume_read)
Workspace-Ressourcen über das RStudio Connections Pane durchsuchen (open_workspace())
Stellt den databricks-sql-connector über {reticulate} bereit (Dokumentation)
Interaktive Databricks REPL

GitHub-Quellcode →
Dokumentation →
Blog →

DBX

Dieses Tool vereinfacht den Start und die Bereitstellung von Jobs in verschiedenen Umgebungen. Ferner hilft es dabei, Ihr Projekt zu paketieren und es in Ihrer Databricks-Umgebung versioniert bereitzustellen. Es wurde nach dem CLI-First-Prinzip entwickelt und kann sowohl in CI/CD-Pipelines als auch als Teil lokaler Tools für schnelles Prototyping aktiv genutzt werden.

Github-Quellen →
Dokumentation →
Blog →

Tempo

Zweck dieses Projekts ist es, eine API für die Bearbeitung von Zeitreihen bereitzustellen, das auf Apache Spark aufsetzt. Zu den Funktionen gehören Featurisierung mit verzögerten Zeitwerten, rollierende Statistiken (Mittelwert, Durchschnitt, Summe, Anzahl usw.), AS OF-Joins sowie Downsampling und Interpolation. Das Projekt wurde mit historischen Daten in TB-Größenordnung getestet.

GitHub-Quellcode →
Dokumentation →
Webinar →

PyLint-Plugin

Dieses Plugin erweitert PyLint um Prüfungen für häufige Fehler und Probleme im Python-Code, speziell in der Databricks-Umgebung.

Github-Quellcode →
Dokumentation →

PyTester

PyTester ist eine leistungsstarke Möglichkeit, die Testvorbereitung und -nachbereitung in Python zu verwalten. Diese Bibliothek bietet eine Sammlung von Testhilfen (Fixtures), die Ihnen beim Schreiben von Integrationstests für Databricks helfen.

GitHub-Quellcode →
Dokumentation →

Delta Sharing Java Connector

Der Java-Connector folgt dem Delta Sharing-Protokoll, um freigegebene Tabellen von einem Delta Sharing Server zu lesen. Um die Kosten für ausgehenden Datenverkehr auf Seiten des Datenanbieters weiter zu senken und zu begrenzen, haben wir einen persistenten Cache implementiert, der durch das Vermeiden unnötiger Lesezugriffe diese Kosten reduziert und begrenzt.

GitHub-Quellen →

Dokumentation →

Overwatch

Analysieren Sie alle Jobs und Cluster in allen Workspaces, um schnell festzustellen, wo das größte Potenzial für Leistungssteigerungen und Kosteneinsparungen durch Anpassungen zu finden ist.

Weitere Informationen →

UCX

UCX ist ein Toolkit, mit dem Sie Unity Catalog (UC) in Ihrem Databricks-Arbeitsbereich aktivieren können. UCX stellt Befehle und Workflows bereit, um Tabellen und Ansichten nach UC zu migrieren. UCX ermöglicht es, Dashboards, Jobs und Notebooks so anzupassen, dass sie die migrierten Datenressourcen in UC verwenden. Und es gibt noch viele weitere Funktionen.

GitHub-Quellen →

Dokumentation →

Blog →

Bitte beachten Sie, dass alle Projekte auf der Website http://github.com/databrickslabs nur zum Kennenlernen vorgestellt und von Databricks nicht formell mit Service Level Agreements (SLAs) unterstützt werden. Sie werden wie besehen („as is“) angeboten und wir übernehmen keine Garantien jeglicher Art. Alle durch die Verwendung dieses Projekts erkundeten Vorgänge sollten als GitHub-Probleme im Repository eingereicht werden. Sie werden überprüft, sobald es die Zeit erlaubt, aber es gibt keine formellen SLAs für den Support.