Laboratórios Databricks
Databricks Labs são projetos criados pela equipe de campo para ajudar os clientes a colocar seus casos de uso em produção mais rapidamente!
DBX
Essa ferramenta simplifica o processo de inicialização e implantação Job em vários ambientes. Também ajuda a empacotar seu projeto e entregá-lo ao seu ambiente Databricks com versão. Projetado como CLI-first, ele é construído para ser usado ativamente tanto dentro de pipelines de CI/CD quanto como parte de ferramentas locais para prototipagem rápida.
Tempo
O objetivo deste projeto é fornecer uma API para manipular séries temporais no Apache Spark™. A funcionalidade inclui caracterização usando valores de tempo defasados, estatísticas contínuas (média, avg, soma, contagem, etc.), AS OF joins e downsampling e interpolação. Isso foi testado na escala TB de dados históricos.
Mosaico
O Mosaic é uma ferramenta que simplifica a implementação de pipelines de dados geoespaciais escaláveis ao unir bibliotecas geoespaciais comuns de código aberto e o Apache Spark™️. O Mosaic também fornece um conjunto de exemplos e práticas recomendadas para casos de uso geoespacial comuns. Ele fornece APIs para expressões ST_ e expressões GRID_, suportando sistemas de índice de grade, como H3 e British National Grid.
Outros projetos
Overwatch
Analise todo o seu Job e cluster em todo o seu Workspace para identificar rapidamente onde você pode fazer os maiores ajustes para obter ganhos de desempenho e economia de custos.
Integração do Splunk
Complemento para Splunk, um aplicativo que permite que os usuários do Splunk Enterprise e do Splunk Cloud executem consultas e ações, como executar Notebook e Job, no Databricks.
sem chama
O Smolder fornece uma fonte de dados Apache Spark™ SQL para carregar dados EHR de formatos de mensagem HL7v2 . Além disso, o Smolder fornece funções auxiliares que podem ser usadas em um Spark SQL DataFrame para analisar o texto da mensagem HL7 e extrair segmentos, campos e subcampos de uma mensagem.
Geoscan
Apache Spark ML Estimator para cluster espacial baseado em densidade baseado em índices espaciais hierárquicos hexagonais.
Migrar
Ferramenta para ajudar os clientes a migrar artefatos entre o Databricks Workspace. Isso permite que os clientes exportem configurações e artefatos de código como um backup ou como parte de uma migração entre um Workspacediferente.
Fontes do Github
Saiba mais: AWS | Azure
Gerador de dados
Gere dados relevantes rapidamente para seus projetos. O gerador de dados Databricks pode ser usado para gerar grandes conjuntos de dados simulados/sintéticos para teste, POCs e outros usos
DeltaOMS
Coleta centralizada Logs de transação Delta para metadados e análise de métricas operacionais em seu Lakehouse.
DLT-META
Essa estrutura facilita a ingestão de dados usando metadados e delta live table . Com o DLT-META, um único engenheiro de dados pode gerenciar facilmente milhares de tabelas. Vários clientes Databricks têm DLT-META em produção para processar mais de 1.000 tabelas.
Observe que todos os projetos no https://github.com/databrickslabs A conta é fornecida apenas para sua exploração e não é formalmente suportada pelo Databricks com contratos de nível de serviço (SLAs). Eles são fornecidos COMO ESTÃO e não oferecemos garantias de qualquer tipo. Por favor, não envie um tíquete de suporte relacionado a quaisquer problemas decorrentes do uso desses projetos. Quaisquer problemas descobertos por meio do uso deste projeto devem ser arquivados como Problemas do GitHub no Repo. Eles serão revisados conforme o tempo permitir, mas não há SLAs formais para suporte.