Ir para o conteúdo principal

Laboratórios Databricks

Databricks Labs são projetos criados pela equipe de campo para ajudar os clientes a colocar seus casos de uso em produção mais rapidamente!

Ícone DBX

DBX

Essa ferramenta simplifica o processo de inicialização e implantação Job em vários ambientes. Também ajuda a empacotar seu projeto e entregá-lo ao seu ambiente Databricks com versão. Projetado como CLI-first, ele é construído para ser usado ativamente tanto dentro de pipelines de CI/CD quanto como parte de ferramentas locais para prototipagem rápida.

Fontes do GitHub →

Documentação →

Blogue →

Gráfico de Andamento

Tempo

O objetivo deste projeto é fornecer uma API para manipular séries temporais no Apache Spark™. A funcionalidade inclui caracterização usando valores de tempo defasados, estatísticas contínuas (média, avg, soma, contagem, etc.), AS OF joins e downsampling e interpolação. Isso foi testado na escala TB de dados históricos.

Fontes do GitHub →

Documentação →

Webinário →

logotipo do mosaico

Mosaico

O Mosaic é uma ferramenta que simplifica a implementação de pipelines de dados geoespaciais escaláveis ao unir bibliotecas geoespaciais comuns de código aberto e o Apache Spark™️. O Mosaic também fornece um conjunto de exemplos e práticas recomendadas para casos de uso geoespacial comuns. Ele fornece APIs para expressões ST_ e expressões GRID_, suportando sistemas de índice de grade, como H3 e British National Grid.

Fontes do GitHub →

Documentação →

Blogue →

Outros projetos

Overwatch

Analise todo o seu Job e cluster em todo o seu Workspace para identificar rapidamente onde você pode fazer os maiores ajustes para obter ganhos de desempenho e economia de custos.

Saiba mais

Integração do Splunk

Complemento para Splunk, um aplicativo que permite que os usuários do Splunk Enterprise e do Splunk Cloud executem consultas e ações, como executar Notebook e Job, no Databricks.

Fontes do Github →
Saiba mais →

sem chama

O Smolder fornece uma fonte de dados Apache Spark™ SQL para carregar dados EHR de formatos de mensagem HL7v2 . Além disso, o Smolder fornece funções auxiliares que podem ser usadas em um Spark SQL DataFrame para analisar o texto da mensagem HL7 e extrair segmentos, campos e subcampos de uma mensagem.

Fontes do Github →
Saiba mais →

Geoscan

Apache Spark ML Estimator para cluster espacial baseado em densidade baseado em índices espaciais hierárquicos hexagonais.

Fontes do Github →
Saiba mais →

Migrar

Ferramenta para ajudar os clientes a migrar artefatos entre o Databricks Workspace. Isso permite que os clientes exportem configurações e artefatos de código como um backup ou como parte de uma migração entre um Workspacediferente.

Fontes do Github
Saiba mais: AWS | Azure

Gerador de dados

Gere dados relevantes rapidamente para seus projetos. O gerador de dados Databricks pode ser usado para gerar grandes conjuntos de dados simulados/sintéticos para teste, POCs e outros usos

Fontes do Github →
Saiba mais →

DeltaOMS

Coleta centralizada Logs de transação Delta para metadados e análise de métricas operacionais em seu Lakehouse.

Fontes do Github →
Saiba mais →

DLT-META

Essa estrutura facilita a ingestão de dados usando metadados e delta live table . Com o DLT-META, um único engenheiro de dados pode gerenciar facilmente milhares de tabelas. Vários clientes Databricks têm DLT-META em produção para processar mais de 1.000 tabelas.

Fontes do Github →
Saiba mais →

Observe que todos os projetos no https://github.com/databrickslabs A conta é fornecida apenas para sua exploração e não é formalmente suportada pelo Databricks com contratos de nível de serviço (SLAs). Eles são fornecidos COMO ESTÃO e não oferecemos garantias de qualquer tipo. Por favor, não envie um tíquete de suporte relacionado a quaisquer problemas decorrentes do uso desses projetos. Quaisquer problemas descobertos por meio do uso deste projeto devem ser arquivados como Problemas do GitHub no Repo. Eles serão revisados conforme o tempo permitir, mas não há SLAs formais para suporte.