Laboratori Databricks
I Databricks Labs sono progetti creati dal team sul campo per aiutare i clienti a mettere in produzione i loro casi d'uso più velocemente!
DBX
Questo strumento semplifica il lancio di lavori e il processo di implementazione su molteplici ambienti. Aiuta anche a "confezionare" il progetto e fornirlo all'ambiente Databricks in una versione specifica. Progettato in primis per interfacce a riga di comando (CLI), è concepito per essere utilizzato attivamente sia in pipeline CI/CD, sia come parte della strumentazione locale per prototipazione veloce.
Tempo
Lo scopo di questo progetto è fornire un'API per la manipolazione delle serie temporali su Apache Spark™. Le funzionalità includono la featurizzazione utilizzando valori temporali ritardati, statistiche variabili (media, avg, somma, conteggio, ecc.), join AS OF, downsampling e interpolazione. Questo è stato testato su una scala di TB di dati storici.
Mosaico
Mosaic è uno strumento che semplifica l'implementazione di pipeline di dati geospaziali scalabili legando insieme librerie geospaziali open source comuni e Apache Spark™️. Mosaic fornisce anche una serie di esempi e best practice per i casi d'uso geospaziali più comuni. Fornisce API per le espressioni ST_ e GRID_, supportando sistemi di indici di griglia come H3 e British National Grid.
Altri progetti
Overwatch
Analizza tutti i lavori e i cluster su tutti gli spazi di lavoro per individuare velocemente dove si possono effettuare gli interventi più incisivi per migliorare le prestazioni e ridurre i costi.
Splunk Integration
Add-on per Splunk, un'applicazione che consente agli utenti di Splunk Enterprise e Splunk Cloud di eseguire query e azioni, come l'esecuzione di Notebook e Job, in Databricks.
Smolder
Smolder fornisce una fonte di dati Apache Spark™ SQL per il caricamento dei dati EHR da HL7v2 formati di messaggio. Inoltre, Smolder fornisce funzioni di aiuto che possono essere utilizzate su un DataFrame SQL di Spark per analizzare il testo dei messaggi HL7 e per estrarre segmenti, campi e sottocampi da un messaggio.
Geoscan
Apache Spark ML Estimator for density-based spatial cluster based on Hexagonal Hierarchical Spatial Indices.
Migrate
Strumento per aiutare i clienti a migrare artefatti fra spazi di lavoro Databricks. Consente ai clienti di esportare configurazioni e artefatti di codice come backup o nell'ambito di una migrazione fra diversi spazi di lavoro.
Fonti Github
Per saperne di più: AWS | Azure
Data Generator
Genera velocemente dati rilevanti per i tuoi progetti. Il generatore di dati di Databricks può essere usato per generare grandi set di dati simulati/sintetici per test, POC e altri usi
DeltaOMS
Raccolta centralizzata di registri di transazioni Delta per analisi di metadati e metriche operative sul lakehouse.
DLT-META
Questo framework semplifica l'inserimento dei dati utilizzando delta live table e i metadati. Con DLT-META, un singolo data engineer può gestire facilmente migliaia di tabelle. Diversi clienti Databricks hanno DLT-META in produzione per elaborare oltre 1000 tabelle.
Si prega di notare che tutti i progetti del sito https://github.com/databrickslabs sono forniti solo a titolo esplorativo e non sono formalmente supportati da Databricks con accordi sui livelli di servizio (SLA). Vengono forniti COSÌ COME SONO e non forniamo garanzie di alcun tipo. Non inviare un ticket di assistenza per problemi derivanti dall'uso di questi progetti. Qualsiasi problema riscontrato attraverso l'uso di questo progetto dovrebbe essere archiviato come GitHub Issues sulla Repo. Saranno rivisti quando il tempo lo permetterà, ma non ci sono SLA formali per il supporto.