Treinar modelos de IA para aplicações do mundo real requer grandes quantidades de dados rotulados, o que pode ser caro, demorado e difícil de obter em larga escala. A geração de dados sintéticos em ambientes simulados oferece uma poderosa alternativa, permitindo que os modelos de IA aprendam com conjuntos de dados virtuais precisos, controlados e escaláveis antes da implantação.
Aproveitando o Omniverse Replicator, uma extensão central do Isaac Sim, uma aplicação de simulação robótica de referência, com a Plataforma de Inteligência de Dados do Databricks, fornece um fluxo de trabalho de ponta a ponta para o desenvolvimento de modelos de IA específicos do domínio em indústrias como manufatura, logística, diagnósticos de saúde e robótica. Ao combinar a geração de dados sintéticos, fluxos de trabalho de IA automatizados e infraestrutura em nuvem escalável, as organizações podem acelerar o desenvolvimento de IA, reduzindo os desafios de aquisição de dados e melhorando a precisão do modelo.
Este blog explora as bases técnicas desta integração, aplicações no mundo real e demonstra como a colaboração entre Databricks e NVIDIA está impulsionando aplicações de visão de máquina. Ao fundir a Plataforma de Inteligência de Dados do Databricks com a computação de alto desempenho incomparável da NVIDIA, as empresas agora podem construir, treinar e implantar modelos de visão em velocidades anteriormente consideradas impossíveis. Este blog explora as bases técnicas desta integração e suas aplicações no mundo real.
As bases técnicas da integração começam com uma arquitetura de referência que define interfaces, modelos de dados e protocolos de comunicação. Abaixo está um fluxo de trabalho generalizado que demonstra a integração de aplicações desenvolvidas com NVIDIA Omniverse e a Plataforma de Inteligência de Dados Databricks para fornecer um pipeline de treinamento de modelo de IA de ponta a ponta.
Os passos dentro do fluxo de trabalho são os seguintes:
Dentro desta arquitetura, o Delta Lake é usado como a camada de integração entre NVIDIA Omniverse e Databricks. Fazemos a ponte entre as duas plataformas aproveitando um protótipo, escritor personalizado, que permite que uma aplicação desenvolvida com Omniverse escreva dados sintéticos diretamente no Lakehouse. Usando essa abordagem, em vez de escrever os dados em disco na forma de arquivos PNG e NumPy, as aplicações alimentadas por Omniverse podem escrever as imagens sintéticas geradas e os metadados correspondentes no formato Delta Lake. Os arquivos são enviados diretamente para o armazenamento em nuvem e são registrados no Catálogo Unity, onde são processados usando o Databricks para que estejam disponíveis para o treinamento do modelo downstream.
A integração entre NVIDIA Omniverse e Databricks estabelece um novo paradigma para o desenvolvimento de visão de máquina, abrangendo a geração de dados sintéticos e a IA de grau industrial fácil de usar. Dentro de ambientes de fabricação, os modelos de detecção de defeitos geralmente encontram três desafios principais: identificar novos defeitos, adaptar-se a novos produtos e atuar em diversos ambientes do mundo real.
Para enfrentar esses desafios, a plataforma NVIDIA Omniverse permite aos clientes construir pipelines de geração sintética personalizados. NVIDIA Omniverse permite que os desenvolvedores criem ângulos de câmera totalmente novos, condições de iluminação e cenários físicos em suas aplicações, aumentando significativamente a robustez e adaptabilidade do modelo além dos métodos tradicionais, como girar ou clarear imagens.
Ao automatizar a geração de imagens, o processo de geração de dados sintéticos se torna um parâmetro ajustável dentro do MLflow Gerenciado do Databricks. Esses ajustes podem ser feitos juntamente com hiperparâmetros tradicionais como taxa de aprendizado e tamanho do lote. À medida que você identifica quais variações impactam a precisão do modelo, você pode refinar sua abordagem de treinamento para se concentrar nas combinações mais eficazes de dados sintéticos e hiperparâmetros, minimizando o tempo gasto em configurações menos produtivas.
Ao ter dados sintéticos como um parâmetro ajustável, novos casos de uso são desbloqueados para fabricantes sem interromper as operações reais:
Essas abordagens permitem que os fabricantes treinem uma variedade mais ampla de modelos de visão de máquina para resolver problemas de negócios de forma proativa. Defeitos raros com dados que anteriormente eram muito escassos para treinar agora podem ser aumentados com numerosos exemplos realistas, permitindo que as empresas detectem defeitos antes que eles escapem enquanto preparam as empresas para a nova era da Inteligência de Dados.
Siemens Healthineers, um cliente de saúde conjunto da Databricks e NVIDIA inspirou esta arquitetura de integração após enfrentar desafios. O fluxo de trabalho fragmentado - com um engenheiro gerando dados sintéticos através de uma aplicação desenvolvida com NVIDIA Omniverse no local e outro movendo esses dados para a nuvem para treinamento e implantação de ML no Databricks - criou atrasos.
Ao implementar o Catálogo Unity do Databricks para centralizar todos os dados, funções e modelos sob um único framework de governança e integrar diretamente as capacidades de geração de dados sintéticos da plataforma Omniverse, a organização reduziu drasticamente os ciclos de iteração do modelo "de semanas para dias", melhorou a integração e rastreabilidade de dados e acelerou o tempo de entrada no mercado.
Se você estiver participando da NVIDIA GTC 2025, visite-nos em nosso estande Databricks #1733 ou solicite uma reunião com a Databricks na GTC.
Para mais informações sobre NVIDIA Omniverse e a Plataforma de Inteligência de Dados Databrick, consulte os recursos adicionais abaixo:
Site da NVIDIA Omniverse
Site da Plataforma de Inteligência de Dados Databricks
Anúncio de Parceria Databricks <> NVDA
Documentação de ML Ops da Databricks
(This blog post has been translated using AI-powered tools) Original Post