(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
실제 세계의 응용 프로그램을 위한 AI 모델 훈련은 대량의 레이블이 붙은 데이터를 필요로 하며, 이는 비용이 많이 들고, 시간이 많이 소요되며, 대규모로 얻기 어렵습니다. 시뮬레이션 환경에서의 합성 데이터 생성은 물리적으로 정확하고, 제어 가능하며, 확장 가능한 가상 데이터셋에서 AI 모델이 배우게 함으로써 강력한 대안을 제공합니다.
Isaac Sim의 핵심 확장 기능인 Omniverse Replicator를 활용하고 Databricks의 데이터 인텔리전스 플랫폼과 결합하면 제조, 물류, 건강관리 진단, 로봇 공학 등의 산업에서 도메인 특화 AI 모델을 개발하기 위한 종단간 워크플로우를 제공합니다. 합성 데이터 생성, 자동화된 AI 워크플로우, 그리고 확장 가능한 클라우드 인프라를 결합함으로써, 조직들은 AI 개발을 가속화하고, 데이터 획득의 어려움을 줄이며, 모델의 정확도를 향상시킬 수 있습니다.
이 블로그는 이러한 통합의 기술적 기반, 실제 세계의 응용 프로그램을 탐구하며, Databricks와 NVIDIA 간의 협력이 어떻게 기계 시각 응용 프로그램을 초속도로 가속화하는지 보여줍니다. Databricks의 데이터 인텔리전스 플랫폼과 NVIDIA의 뛰어난 고성능 컴퓨팅을 결합함으로써, 기업들은 이제 이전에는 불가능하다고 생각되었던 속도로 비전 모델을 구축, 훈련, 배포할 수 있습니다. 이 블로그는 이러한 통합의 기술적 기반과 실제 세계의 응용 프로그램을 탐구합니다.
통합의 기술적 기반은 인터페이스, 데이터 모델, 그리고 통신 프로토콜을 정의하는 참조 아키텍처로 시작합니다. 아래는 NVIDIA Omniverse와 Databricks 데이터 인텔리전스 플랫폼으로 개발된 애플리케이션의 통합을 보여주는 일반화된 워크플로우로, 종단간 AI 모델 훈련 파이프라인을 제공합니다.
워크플로우 내의 단계는 다음과 같습니다:
이 아키텍처 내에서, Delta Lake은 NVIDIA Omniverse와 Databricks 사이의 통합 계층으로 사용됩니다. 우리는 프로토타입, 사용자 정의 작성기를 활용하여 Omniverse로 개발된 응용 프로그램이 Lakehouse에 직접 합성 데이터를 작성할 수 있도록 두 플랫폼을 연결합니다. 이 접근 방식을 사용하면, PNG와 NumPy 파일 형식으로 디스크에 데이터를 쓰는 대신, Omniverse 기반 애플리케이션은 생성된 합성 이미지와 해당 메타데이터를 Delta Lake 형식으로 작성할 수 있습니다. 파일들은 클라우드 저장소에 직접 저장되며 Unity 카탈로그에 등록되어 Databricks를 사용하여 추가 처리되므로 하류 모델 훈련에 사용할 수 있습니다.
NVIDIA Omniverse와 Databricks의 통합은 합성 데이터 생성 및 사용하기 쉬운 산업용 AI를 포함하여 머신 비전 개발에 대한 새로운 패러다임을 설정합니다. 제조 환경 내에서, 결함 탐지 모델은 종종 새로운 결함을 식별하고, 새로운 제품에 적응하며, 다양한 실제 환경에서 작동하는 세 가지 주요 도전과제에 직면합니다.
이러한 도전을 해결하기 위해, NVIDIA Omniverse 플랫폼은 고객이 맞춤형 합성 생성 파이프라인을 구축할 수 있도록 지원합니다. NVIDIA Omniverse는 개발자들이 그들의 애플리케이션에서 완전히 새로운 카메라 각도, 조명 조건, 그리고 물리적 시나리오를 생성할 수 있게 해, 이미지를 회전시키거나 밝게 하는 등의 전통적인 방법을 넘어서 모델의 견고성과 적응성을 크게 향상시킵니다.
이미지 생성을 자동화함으로써, 합성 데이터 생성 과정은 Databricks의 관리형 MLflow 내에서 조정 가능한 매개변수가 됩니다. 이러한 조정은 학습률과 배치 크기와 같은 전통적인 하이퍼파라미터와 함께 수행될 수 있습니다. 어떤 변형이 모델 정확도에 영향을 미치는지 확인하면서, 합성 데이터와 하이퍼파라미터의 가장 효과적인 조합에 초점을 맞추어 훈련 접근법을 개선할 수 있으며, 덜 생산적인 구성에 소비되는 시간을 최소화할 수 있습니다.
합성 데이터를 조정 가능한 매개변수로 가지고 있음으로써, 실제 작업을 방해하지 않고 제조업체에게 새로운 사용 사례가 제공됩니다:
이러한 접근 방식은 제조업체가 사업 문제를 미리 해결하기 위해 기계 비전 모델의 더 넓은 다양성을 훈련시킬 수 있게 합니다. 이전에는 훈련에 너무 희박했던 데이터가 있는 희귀한 결함은 이제 많은 현실적인 예시로 보강될 수 있어, 기업이 결함이 탈출하기 전에 결함을 잡을 수 있게 하며, 기업을 데이터 인텔리전스의 새 시대에 대비시킵니다.
Databricks와 NVIDIA의 공동 헬스케어 고객인 Siemens Healthineers는 이 통합 아키텍처를 경험한 후 이를 창조하였습니다. 분산된 워크플로우—한 엔지니어가 NVIDIA Omniverse로 개발된 애플리케이션을 통해 합성 데이터를 생성하고, 다른 엔지니어가 그 데이터를 클라우드로 이동시켜 ML 훈련과 배포를 Databricks에서 수행하는 것—은 지연을 초래했습니다.
Databricks Unity Catalog를 구현하여 모든 데이터, 함수, 그리고 모델을 단일 거버넌스 프레임워크 아래에 중앙화하고, Omniverse 플랫폼의 합성 데이터 생성 기능을 직접 통합함으로써, 조직은 모델 반복 주기를 "주에서 일로" 크게 줄였으며, 데이터 통합 및 추적성을 향상시켰고, 출시까지의 시간을 가속화했습니다.
NVIDIA GTC 2025에 참석하고 있다면, Databricks 부스 #1733에서 우리를 방문하거나 GTC에서 Databricks와의 미팅을 요청하세요.
NVIDIA Omniverse와 Databrick Data Intelligence Platform에 대한 자세한 내용은 아래 추가 자원을 참조하십시오:
NVIDIA Omniverse 웹사이트