주요 컨텐츠로 이동

Databricks와 NVIDIA Omniverse를 이용한 인식 AI를 위한 확장 가능한 합성 데이터 생성 파이프라인 구축

Databricks and NVIDIA Omniverse

Summary

  • NVIDIA Omniverse와 Databricks 데이터 인텔리전스 플랫폼 통합은 합성 데이터 생성과 기업용 AI 기능을 간단하게 배포하고 유지 관리할 수 있는 아키텍처로 결합합니다.
  • NVIDIA Omniverse Replicator를 사용하면, Databricks 사용자들은 고품질, 물리적으로 정확한 시뮬레이션을 이용하여 합성적으로 생성된 데이터를 비전 모델 훈련을 위해 매개변수화할 수 있습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

실제 세계의 응용 프로그램을 위한 AI 모델 훈련은 대량의 레이블이 붙은 데이터를 필요로 하며, 이는 비용이 많이 들고, 시간이 많이 소요되며, 대규모로 얻기 어렵습니다. 시뮬레이션 환경에서의 합성 데이터 생성은 물리적으로 정확하고, 제어 가능하며, 확장 가능한 가상 데이터셋에서 AI 모델이 배우게 함으로써 강력한 대안을 제공합니다.

Isaac Sim의 핵심 확장 기능인 Omniverse Replicator를 활용하고 Databricks의 데이터 인텔리전스 플랫폼과 결합하면 제조, 물류, 건강관리 진단, 로봇 공학 등의 산업에서 도메인 특화 AI 모델을 개발하기 위한 종단간 워크플로우를 제공합니다. 합성 데이터 생성, 자동화된 AI 워크플로우, 그리고 확장 가능한 클라우드 인프라를 결합함으로써, 조직들은 AI 개발을 가속화하고, 데이터 획득의 어려움을 줄이며, 모델의 정확도를 향상시킬 수 있습니다.

이 블로그는 이러한 통합의 기술적 기반, 실제 세계의 응용 프로그램을 탐구하며, Databricks와 NVIDIA 간의 협력이 어떻게 기계 시각 응용 프로그램을 초속도로 가속화하는지 보여줍니다. Databricks의 데이터 인텔리전스 플랫폼과 NVIDIA의 뛰어난 고성능 컴퓨팅을 결합함으로써, 기업들은 이제 이전에는 불가능하다고 생각되었던 속도로 비전 모델을 구축, 훈련, 배포할 수 있습니다. 이 블로그는 이러한 통합의 기술적 기반과 실제 세계의 응용 프로그램을 탐구합니다.

아키텍처 패턴

통합의 기술적 기반은 인터페이스, 데이터 모델, 그리고 통신 프로토콜을 정의하는 참조 아키텍처로 시작합니다. 아래는 NVIDIA Omniverse와 Databricks 데이터 인텔리전스 플랫폼으로 개발된 애플리케이션의 통합을 보여주는 일반화된 워크플로우로, 종단간 AI 모델 훈련 파이프라인을 제공합니다.

워크플로우 내의 단계는 다음과 같습니다:

  1. 합성 데이터 생성을 정의하기 위한 초기 입력 데이터와 매개변수 제공
    • 예시: 물체의 3D 아티팩트와 특정 조명에 대한 장면 설명, 그리고 예상되는 변동을 보여주기 위한 무작위화와 변동성 매개변수.
  2. Omniverse Replicator를 사용하여 Isaac Sim에 대한 합성 데이터를 생성합니다.
    • 예시: 특정 CAD 객체의 다양한 변형을 다른 각도에서 캡처한 이미지 생성.
  3. Mosaic AI 모델 훈련을 준비하기 위해 Delta Lake과 같은 Lakehouse 형식으로 데이터 처리.
    • 예시: Databricks Lakeflow 파이프라인을 구성하여 데이터셋을 변환하고 조화롭게 만들고, 추가적인 컨텍스트를 위해 메타데이터를 연결.
  4. Databricks에서 도메인 특정 사용 사례를 위한 모델 훈련/세부 조정
    • 예시: You Only Look Once (YOLO) 머신 비전 모델에 대한 다양한 모델 훈련 실행을 통한 실험 추적. Databricks Unity 카탈로그에 모델을 저장하여 MLOps 수명주기 동안 모델 관리를 수행합니다.
  5. 파이프라인, 애플리케이션, 워크플로우에서 도메인 특화 모델을 추론에 사용합니다.
    • 예시: Databricks Unity 카탈로그에 모델을 등록하고, 쉽게 배포할 수 있는 Databricks 모델 서빙 엔드포인트에서 제공.

이 아키텍처 내에서, Delta Lake은 NVIDIA Omniverse와 Databricks 사이의 통합 계층으로 사용됩니다. 우리는 프로토타입, 사용자 정의 작성기를 활용하여 Omniverse로 개발된 응용 프로그램이 Lakehouse에 직접 합성 데이터를 작성할 수 있도록 두 플랫폼을 연결합니다. 이 접근 방식을 사용하면, PNG와 NumPy 파일 형식으로 디스크에 데이터를 쓰는 대신, Omniverse 기반 애플리케이션은 생성된 합성 이미지와 해당 메타데이터를 Delta Lake 형식으로 작성할 수 있습니다. 파일들은 클라우드 저장소에 직접 저장되며 Unity 카탈로그에 등록되어 Databricks를 사용하여 추가 처리되므로 하류 모델 훈련에 사용할 수 있습니다.

기계 비전 MLOps를 위한 새로운 패턴

NVIDIA Omniverse와 Databricks의 통합은 합성 데이터 생성 및 사용하기 쉬운 산업용 AI를 포함하여 머신 비전 개발에 대한 새로운 패러다임을 설정합니다. 제조 환경 내에서, 결함 탐지 모델은 종종 새로운 결함을 식별하고, 새로운 제품에 적응하며, 다양한 실제 환경에서 작동하는 세 가지 주요 도전과제에 직면합니다.

이러한 도전을 해결하기 위해, NVIDIA Omniverse 플랫폼은 고객이 맞춤형 합성 생성 파이프라인을 구축할 수 있도록 지원합니다. NVIDIA Omniverse는 개발자들이 그들의 애플리케이션에서 완전히 새로운 카메라 각도, 조명 조건, 그리고 물리적 시나리오를 생성할 수 있게 해, 이미지를 회전시키거나 밝게 하는 등의 전통적인 방법을 넘어서 모델의 견고성과 적응성을 크게 향상시킵니다.

이미지 생성을 자동화함으로써, 합성 데이터 생성 과정은 Databricks의 관리형 MLflow 내에서 조정 가능한 매개변수가 됩니다. 이러한 조정은 학습률과 배치 크기와 같은 전통적인 하이퍼파라미터와 함께 수행될 수 있습니다. 어떤 변형이 모델 정확도에 영향을 미치는지 확인하면서, 합성 데이터와 하이퍼파라미터의 가장 효과적인 조합에 초점을 맞추어 훈련 접근법을 개선할 수 있으며, 덜 생산적인 구성에 소비되는 시간을 최소화할 수 있습니다.

새로운 사용 사례 해제

합성 데이터를 조정 가능한 매개변수로 가지고 있음으로써, 실제 작업을 방해하지 않고 제조업체에게 새로운 사용 사례가 제공됩니다:

  1. 제조 품질 관리 내의 결함 감지 - 상자에서 꺼낸 기계 비전 모델은 오직 훈련된 실제 세계 데이터를 기반으로 객체를 인식할 수 있습니다. 이 워크플로우를 통해, 제조업체는 이제 제품의 3D CAD 모델을 사용하여 부식, 질감, 미세한 균열, 물리적 특성 색상/크기 변동 등 다양한 결함을 포함하는 합성 이미지를 원활하게 생성할 수 있으며, 이를 통해 회사는 모델을 세부 조정하고 Databricks에서 제공하여 제품이 출하되기 전에 결함을 잡을 수 있습니다.
  2. 생성적 제품 디자인 - 제품이 개념에서 생산으로 전환되기 전에, 디자인 팀은 CAD 소프트웨어 도구에서 실제가 어떻게 보일지에 대한 상세한 3D 렌더링을 먼저 생성합니다. 이러한 같은 디자인을 Omniverse Replicator와 함께 사용하면, 이제 우리는 생성적 디자인 모델을 Databricks에서 미세 조정하기 위해 필요한 합성 데이터를 생성할 수 있게 되어, 물리적 제조가 시작되기 훨씬 전에 디자인 공간 탐색을 가능하게 합니다. 이 통합 접근 방식은 제조업체가 주어진 요구 사항 세트에서 실행 가능하고 최적화된 디자인 솔루션(2D/3D 모델로 표현)을 생성하고, 그 성능을 전통적인 시뮬레이션 연구보다 빠르게 예측하는 데 도움이 될 것입니다. Databricks의 DevOps 및 스케줄링 기능 덕분에 이러한 프로세스는 종단간 파이프라인으로 트리거되고 실행될 수 있습니다(예: 새로운 CAD 표현 버전이 사용 가능할 때).
  3. 로봇과 자동화의 자기 인지 - 개발자들은 Omniverse Replicator를 그들의 워크플로우에 통합하여, 무수히 많은 환경 구성, 카메라 각도, 그리고 조명 시나리오를 포함하는 합성 데이터셋을 생성할 수 있습니다. 로봇 제조업체들은 Databricks를 사용하여 OpenUSD 장면에서 다양한 시점의 이미지를 저장하고, 병렬로 분산된 모델 튜닝 실험을 실행하여 특정 제조 환경에서 특정 로봇 팔 움직임에 대한 더 나은 AI 이해를 빠르게 개발할 수 있습니다.

이러한 접근 방식은 제조업체가 사업 문제를 미리 해결하기 위해 기계 비전 모델의 더 넓은 다양성을 훈련시킬 수 있게 합니다. 이전에는 훈련에 너무 희박했던 데이터가 있는 희귀한 결함은 이제 많은 현실적인 예시로 보강될 수 있어, 기업이 결함이 탈출하기 전에 결함을 잡을 수 있게 하며, 기업을 데이터 인텔리전스의 새 시대에 대비시킵니다.

의료 회사의 데이터 간극 해결

Databricks와 NVIDIA의 공동 헬스케어 고객인 Siemens Healthineers는 이 통합 아키텍처를 경험한 후 이를 창조하였습니다. 분산된 워크플로우—한 엔지니어가 NVIDIA Omniverse로 개발된 애플리케이션을 통해 합성 데이터를 생성하고, 다른 엔지니어가 그 데이터를 클라우드로 이동시켜 ML 훈련과 배포를 Databricks에서 수행하는 것—은 지연을 초래했습니다.

Databricks Unity Catalog를 구현하여 모든 데이터, 함수, 그리고 모델을 단일 거버넌스 프레임워크 아래에 중앙화하고, Omniverse 플랫폼의 합성 데이터 생성 기능을 직접 통합함으로써, 조직은 모델 반복 주기를 "주에서 일로" 크게 줄였으며, 데이터 통합 및 추적성을 향상시켰고, 출시까지의 시간을 가속화했습니다.

 

NVIDIA GTC 2025에 참석하고 있다면, Databricks 부스 #1733에서 우리를 방문하거나 GTC에서 Databricks와의 미팅을 요청하세요.

NVIDIA Omniverse와 Databrick Data Intelligence Platform에 대한 자세한 내용은 아래 추가 자원을 참조하십시오:

  • Omniverse Replicator는 Omniverse Kit 확장으로 생성되고, Omniverse Code를 통해 편리하게 배포됩니다.
    • 복제기를 사용하려면 여기에서 찾을 수 있는 Omniverse를 다운로드해야 합니다.
    • Omniverse 런처에 대한 자세한 내용은 이 비디오 를 확인하세요.
  • 만약 Databricks 인텔리전스 플랫폼을 처음 사용한다면, 무료 체험 계정에 가입하세요. 또한 Databricks Academy 의 전체 목록, 훈련, 그리고 인증을 찾아볼 수 있습니다.

 

NVIDIA Omniverse 웹사이트

 

Databricks 데이터 인텔리전스 플랫폼 웹사이트

 

Databricks <> NVDA 파트너십 발표

 

Databricks - ML Ops 문서화

 

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요