주요 컨텐츠로 이동

Unity Catalog를 오픈소스로 공개합니다

데이터와 AI를 위한 업계 유일의 범용 카탈로그
이 포스트 공유하기

클라우드, 데이터 포맷, 데이터 플랫폼 전반에 걸쳐, 데이터 및 AI 거버넌스를 위한 업계 최초의 오픈소스 카탈로그인 Unity Catalog를 오픈소스화한다는 소식을 알려드리게 되어 기쁘게 생각합니다. Unity Catalog 비전의 가장 중요한 핵심은 다음과 같습니다:

  • 오픈 소스 API 및 구현: Apache 2.0 라이선스에 따라 OpenAPI 사양과 오픈 소스 서버 구현을 기반으로 구축되었습니다. 또한 Apache Hive의 메타스토어 API와 Apache Iceberg의 REST 카탈로그 API와도 호환됩니다.
  • 멀티포맷 지원: 확장성이 뛰어나며 Delta Lake, Apache Parquet, CSV, UniForm을 통한 Apache Iceberg 등 다양한 포맷을 지원합니다.
  • 멀티 엔진 지원: Unity에 카탈로깅된 데이터는 개방형 API를 통해 거의 모든 컴퓨팅 엔진에서 읽을 수 있습니다.
  • 멀티모달: 테이블, 파일, 함수, AI 모델 등 모든 데이터와 AI 자산을 지원합니다.
  • 활기찬 에코시스템: 이 프로젝트는 커뮤니티의 노력으로 이루어졌으며 Amazon Web Services, Microsoft Azure, Google Cloud, Nvidia, Salesforce, DuckDB, LangChain, dbt Labs, Fivetran, Confluent, Unstructured, Onehouse, Immuta, Informatica 등의 지원을 받게 되어 매우 기쁘게 생각합니다.

이 프로젝트는 Unity의 비전을 오픈 소스로 구현하기 위한 여정의 첫 번째 단계로, 오늘부터 GitHub에서 이용할 수 있습니다. Unity Catalog는 인공지능(AI) 및 데이터 분야의 오픈소스 혁신을 지원하는 리눅스 재단의 산하 재단인 LF AI & Data에서 호스팅되며, 향후 수년간 오픈소스 커뮤니티와 협력하여 이 비전을 실현할 수 있게 되어 매우 기쁘게 생각합니다.

왜 오픈 소스인가?

Unity Catalog가 널리 채택되고 있는 상황에서 왜 이를 오픈 소스화 하는지, 그리고 왜 지금인지 궁금하실 수 있습니다. 그 이유는 현재뿐만 아니라 향후 수십 년 동안의 혁신을 위해 데이터와 AI 애플리케이션을 위한 개방형 기반이 필요하다는 의견을 꾸준히 들어왔기 때문입니다.

안타깝게도 오늘날 대부분의 데이터 플랫폼은 벽으로 둘러싸인 정원(walled garden)과 같습니다. 많은 클라우드 데이터 웨어하우스는 개방형 형식이 아닌 "네이티브 테이블"을 사용합니다. 어떤 플랫폼에서는 외부 엔진에서 데이터를 읽을 때에도 고객이 상시 가동 컴퓨팅에 대한 비용을 지불해야 합니다. 그리고 많은 플랫폼들은 지원하는 데이터 형식과 클라이언트를 제한합니다.

이로 인해 데이터가 사일로화되고 자산 전반의 거버넌스가 파편화됩니다. 또한 AI 자산은 말할 것도 없고 테이블 형식 데이터 전반에 걸친 멀티모달 인터페이스가 없으면 조직은 여러 개의 서로 다른 솔루션을 이어붙여야 합니다. 데이터브릭스는 모든 테이블을 개방형 포맷으로 기본 제공하는 유일한 주요 플랫폼으로, 작년에 UniForm을 통해 Iceberg 클라이언트에 델타 테이블을 개방함으로써 이미 업계에서 강력한 입지를 다졌습니다. Unity Catalog를 오픈소스화함으로써 우리는 현재와 미래의 워크로드를 위한 개방형 기반을 기업들에게 제공하고 있습니다.

왜 멀티모달 데이터 및 AI 카탈로그인가?

AI가 빠르게 발전하는 이 시대에 모든 기업은 복합 AI 시스템을 위한 비정형 데이터를 관리하거나 에이전트 LLM 애플리케이션을 위한 툴 카탈로그를 구축하는 등 데이터와 AI 자산을 함께 관리해야 한다는 사실을 깨닫고 있습니다. 데이터브릭스에서는 데이터와 AI 인프라의 통합 필요성을 일찍이 인지하고 3년 전 이 두 세계를 일관된 거버넌스 모델로 통합하기 위해 Unity Catalog를 출시했습니다. 현재 수천 명의 고객이 통합 거버넌스를 활용하고 있습니다:

  • 테이블, 비정형 데이터, AI 자산을 구성하고 공유하기 위한 단일 네임스페이스
  • 모든 데이터와 AI 활동에 대한 중앙 집중식 감사 로그
  • 데이터와 AI 워크로드 전반에 걸친 통합 리니지(계보) 관리
  • 오픈 소스 Delta Sharing 프로토콜을 통한 조직 간 협업.

생성형 AI 에이전트를 위한 툴 카탈로그 개념과 같은 최근 출시된 AI 기능도 이러한 통합 거버넌스 모델에 적합하도록 설계되었습니다.

Unity Catalog 0.1 릴리즈

오늘 우리는 오픈 소스 Unity Catalog 버전 0.1을 출시합니다. 일부 API와 기능은 계속 발전해 나갈 예정이지만, 이번 릴리스에서는 Unity Catalog의 몇 가지 중요한 기능을 선보입니다:

  • 테이블, 볼륨(비정형 데이터), AI 툴/함수를 함께 관리할 수 있습니다.
  • 테이블은 Delta Lake, Parquet, CSV, JSON, UniForm을 통한 Iceberg 등 다양한 포맷으로 만들 수 있습니다.
  • Unity Catalog는 Tabular의 전문 지식을 활용하여 Iceberg 엔진 에코시스템에서 액세스할 수 있도록 Iceberg REST 카탈로그 API를 구현합니다.
  • 이 API는 자격 증명 벤딩을 지원하여 클라이언트가 테이블과 볼륨을 위한 클라우드 스토리지에 액세스하도록 제어함으로써, 카탈로그 서버에서 거버넌스를 중앙 집중화합니다.

A Unity catalog blog image.

데이터브릭스 고객에게는 이것이 어떤 의미인가?

이미 데이터브릭스 고객인 경우 별도로 수행해야 하는 작업은 없습니다. 고객의 기존 Unity Catalog 배포는 동일한 오픈 API를 구현하므로 기존 액세스 제어를 그대로 유지하면서 호스팅된 Unity Catalog의 모든 테이블(관리형 및 외부 테이블 포함), 볼륨 및 함수를 외부 클라이언트가 첫날부터 읽을 수 있습니다. 이 변경 사항은 단순히 더 큰 규모의 클라이언트 에코시스템이 기존 카탈로그와 함께 작동한다는 것을 의미합니다

우리의 파트너와 오픈 소스 커뮤니티는 Unity REST API를 통해 강력한 통합을 구축할 수 있고, 이를 통해 고객이 외부 액세스 비용 없이 다양한 애플리케이션의 테이블, 비정형 데이터, AI 툴/함수를 사용할 수 있도록 할 수 있습니다.

"AT&T는 데이터를 플랫폼과 상호 운용할 수 있도록 하기 위해 최선을 다하고 있습니다. Unity Catalog의 오픈 소스화 발표와 함께 개방형 표준을 통해 레이크하우스 거버넌스 및 메타데이터 관리를 가능하게 하는 데이터브릭스의 행보에 고무되어 있습니다. 일관된 거버넌스와 함께 데이터 및 AI 자산과 상호 운용 가능한 툴을 활용할 수 있는 유연성은 AT&T 데이터 플랫폼 전략의 핵심입니다."

— Matt Dugan, AT&T 데이터 플랫폼 부문 부사장

 

"나스닥은 종합적인 데이터 관리 전략의 일환으로 데이터브릭스의 Unity Catalog를 활용하게 되어 자랑스럽습니다. 데이터브릭스의 오픈 소스화 결정은 데이터 사일로를 제거하는 데 도움이 되는 솔루션을 제공합니다. 앞으로도 고객에게 지속적으로 서비스를 제공하면서 플랫폼을 더욱 확장하고 거버넌스를 강화하며 데이터 애플리케이션을 현대화할 수 있기를 기대합니다."

— Lenny Rosenfeld, 나스닥 캐피털 액세스 플랫폼 부문 부사장

 

"리비안에서는 데이터브릭스 플랫폼을 도입하여 차세대 EAV를 구축하는 데 데이터와 AI를 활용할 수 있게 되었습니다. 데이터브릭스에서 Unity Catalog를 오픈 소스화하고 오픈 API를 출시하여 공급업체 종속의 우려 없이 데이터 환경 전반에서 상호 운용성을 제공하게 되어 기대가 큽니다. 정형 및 비정형 데이터, 머신러닝 모델, Gen AI 툴 등 모든 데이터 자산을 지원하므로, 우리는 쉽게 Unity Catalog로 표준화하기로 결정할 수 있었습니다."

— Jason Shiverick, 리비안, AI 플랫폼 부문 이사

 

    오픈 소스 에코시스템

    앞으로 몇 달 동안 선도적인 클라우드 제공업체, 데이터 및 AI 플랫폼, 컴퓨팅 엔진과 협력하여 Unity Catalog 표준을 발전시키게 되어 매우 기쁘게 생각합니다. 여기에는 AI, 데이터 분석, 비정형 데이터, 거버넌스 분야의 선도적인 소프트웨어 벤더와 오픈 소스 프로젝트가 포함되며, 이들은 Unity Catalog 오픈 소스 서버와 데이터브릭스에 쉽게 연결할 수 있게 될 것입니다.

    Unity Catalog - Open and Interoperable

     


    "AWS는 데이터브릭스의 오픈 소스 Unity Catalog로의 전환을 환영합니다. AWS는 고객에게 선택권과 상호 운용성을 제공하는 오픈 소스 솔루션에 대해 업계와 협력하기 위해 최선을 다하고 있습니다."

    — Chris Grusz, 기술 파트너십 부문 매니징 디렉터, AWS

     

    "Microsoft는 오픈 소스 커뮤니티를 지원하고 고객에게 선택권을 부여하는 데 전념하고 있습니다. 데이터브릭스는 수년간 전략적 파트너로 함께해 왔으며, Unity Catalog를 오픈소스화하게 되어 매우 기쁘게 생각합니다. 우리는 업계가 폭넓게 참여하는 진정한 개방형 표준이 고객에게 가장 이익이 된다고 생각합니다. 데이터브릭스와의 협력을 통해 데이터와 AI 워크로드를 위한 최고의 선택으로 Microsoft Azure의 위상이 계속 높아질 것입니다."

    — Jessica Hawk, 데이터, AI 및 디지털 애플리케이션 부문 CVP, Microsoft

     

    "Google은 고객이 데이터의 가치를 극대화할 수 있도록 지원하는 개방적이고 유연한 솔루션을 제공하기 위해 노력하고 있습니다. 데이터 및 AI를 위한 Unity Catalog 표준을 개방하려는 데이터브릭스의 전략은 우리의 전략과 매우 잘 부합합니다."

    — Ritika Suri, 데이터 및 AI 기술 파트너십 디렉터, Google 클라우드

    향후 로드맵

    이것은 Unity Catalog 오픈 소스 프로젝트의 시작일 뿐입니다. Unity Catalog는 수천 명의 고객이 프로덕션 환경에서 사용하고 있으며 수년간의 엔지니어링을 통해 탄생한 결과물이기 때문에 우선적으로 액세스 및 클라이언트 상호 운용성에 중점을 두어 이 기능을 오픈 소스 프로젝트에 단계적으로 포팅하고 있습니다.

    향후 몇 달 내에 데이터와 AI 워크로드에 중요한 API에 대한 향상된 지원을 추가할 예정입니다:

    • Format-agnostic table write APIs
    • Views
    • Delta Sharing
    • Models (with MLflow integration)
    • Remote functions
    • Access Control APIs
    • And more

    지금 바로 시작하기

    Unity Catalog 오픈 소스 커뮤니티(unitycatalog.io)에 참여할 수 있습니다. 데이터브릭스 고객 여러분, 빠르게 발전하는 데이터 및 AI 툴의 에코시스템이 Unity Catalog와 통합되는 과정을 계속 지켜봐 주세요.


    "Salesforce Data Cloud는 처음부터 Apache Parquet 및 Apache Iceberg를 통해 개방형 표준을 기반으로 구축되었습니다. 제로 카피 혁신을 통해 고객은 데이터를 활용하고, 인사이트를 도출하며, 고객 360 전반에 걸쳐 조치를 조율할 수 있습니다. 데이터브릭스가 UniForm과 Unity Catalog를 통해 Apache Iceberg를 수용함으로써 Delta Lake와 Iceberg 간의 주요 상호운용성 문제를 해결하게 되었습니다. 데이터브릭스가 제로 카피 파트너 네트워크의 일원이 되어 기쁘게 생각하며, 새로운 개방형 Unity Catalog를 통해 정형 데이터, 비정형 데이터 및 AI 모델에서 강력한 고객 가치를 제공하는 공동 혁신을 기대합니다."

    — Ravi Loganathan, Salesforce 소프트웨어 엔지니어링 부문 총괄 부사장

     

    "정확한 생성형 AI 애플리케이션을 개발하려면 엔터프라이즈 데이터가 필수적입니다. NVIDIA는 파트너 에코시스템과 긴밀히 협력하여 고객이 효율적이고 강력한 개발 파이프라인을 큐레이팅할 수 있도록 Unity Catalog와 같은 오픈 소스 제품을 지원합니다."

    — Pat Lee, NVIDIA 전략적 엔터프라이즈 파트너십 담당 부사장

     

    "Delta Kernel은 DuckDB Delta Extension 구축을 크게 간소화하여 DuckDB에서 Delta Lake에 쉽게 액세스할 수 있게 해줍니다. 데이터브릭스와 Delta Kernal 및 데이터와 AI를 위한 Unity 카탈로그 오픈 표준에 대해 협력하게 되어 매우 기쁘게 생각합니다. 이번 협력은 오픈 소스 혁신과 오픈 데이터 레이크하우스 개발의 중요한 진전을 의미합니다."

    — Hannes Mühleisen, DuckDB Labs CEO

     

    "데이터브릭스에서 Unity Catalog를 오픈소스화하기로 결정한 것은 데이터 및 AI 커뮤니티에 매우 흥미로운 발전입니다. 데이터브릭스와의 파트너십을 통해 Unity Catalog를 LangChain과 통합하여 두 기술의 공통 사용자들이 Unity Catalog 기능을 도구로 사용하여 고급 에이전트를 구축할 수 있게 되어 기쁘게 생각합니다."

    — Harrison Chase, LangChain CEO 겸 설립자

     

    "Unstructured는 LLM을 위한 선도적인 비정형 데이터 ETL 솔루션으로, 조직이 데이터를 원시 데이터에서 RAG 지원 데이터로 변환할 수 있도록 지원합니다. 데이터 사일로를 허물고 기업의 AI/ML 개발을 가속화한다는 점에서 Unity Catalog와의 통합은 완벽한 의미가 있습니다. 데이터브릭스와의 파트너십을 통해 AI 사용 사례를 위한 개방형 표준을 개발하고 비정형 데이터의 메타데이터를 표준화하여 고객이 최첨단 AI를 활용할 수 있도록 지원하게 되어 기쁘게 생각합니다."

    — Brian Raymond, UnstructuredIO의 CEO 겸 설립자

     

    "Eventual에서는 멀티모달 데이터를 위한 선도적인 오픈 소스 분산 쿼리 엔진인 Daft를 구축했습니다. 정형 및 비정형 데이터에 대한 컴퓨팅을 통합하는 것만으로는 충분하지 않으며, GenAI 데이터 레이크하우스를 구축하기 위해서는 멀티모달 카탈로그가 필수적이라고 생각합니다. 데이터브릭스 및 다른 AI 혁신 기업들과 협력하여 최신 데이터+AI 워크로드를 위한 Unity Catalog 오픈 표준을 개발하게 되어 기쁘게 생각합니다."

    — Sammy Sidhu, Eventual Computing CEO 겸 설립자

     

    "그라니카는 데이터 민주화와 벤더 종속으로부터의 자유를 옹호합니다. 우리의 Safe Room 기술은 개인 정보 보호, 신뢰, 안전성을 보장하는 동시에 생성형 AI 워크플로우의 프라이버시, 신뢰, 안전성을 보장하며, Unity Catalog, Delta Lake, Apache Iceberg와 같은 개방형 표준을 지원합니다. Unity Catalog의 벤더 중립적인 아키텍처와 강력한 거버넌스 솔루션은 고객에게 데이터에 대한 유연성과 제어권을 제공한다는 우리의 비전에 부합합니다. 이러한 개방형 에코시스템에 기여하여 혁신을 주도하고 고객이 동급 최고의 플랫폼에서 데이터를 원활하게 활용할 수 있도록 지원하게 되어 기쁘게 생각합니다."

    — Rahul Ponnala, 그라니카 CEO 겸 공동 설립자

     

    "Unity Catalog의 오픈 소스화는 보다 협력적이고 혁신적인 데이터 생태계를 향한 중추적인 단계입니다. 데이터브릭스는 이 기술을 공개함으로써 전체 커뮤니티가 향상된 데이터 거버넌스 및 관리 기능에 기여하고 혜택을 누릴 수 있는 환경을 조성하고 있습니다. 이러한 움직임은 모두를 위한 발전과 혁신을 주도하는 오픈 포맷 상호 운용성을 지원한다는 Onehouse와 Apache XTable(인큐베이팅)의 비전과도 일치합니다."

    — Vinoth Chandar, Onehouse CEO 겸 공동 설립자

     

    "Confluent의 사명은 데이터를 움직이게 하고 조직이 어디서나 데이터를 활용할 수 있도록 지원하는 것입니다. 데이터브릭스가 Unity Catalog의 오픈 소스화를 통해 오픈 데이터 생태계에 크게 기여할 수 있게 되어 매우 기쁘게 생각합니다. Confluent Cloud의 Tableflow를 사용하면 클릭 한 번으로 데이터 스트림을 Iceberg 테이블로 전환하여 데이터 레이크와 같은 곳에 실시간 데이터를 쉽게 전달할 수 있습니다. 업계를 선도하는 당사의 스트리밍 기능과 데이터브릭스의 강력한 데이터 관리 솔루션을 결합함으로써 고객들은 데이터를 그 어느 때보다 효과적으로 활용할 수 있게 될 것입니다."

    — Shaun Clowes, CPO, Confluent

     

    "데이터브릭스와 dbt 클라우드를 함께 사용하면 데이터 사일로를 허물어 효과적으로 협업하고, Delta Lake로 ETL을 간소화하여 TCO를 절감하며, Unity Catalog로 거버넌스를 통합할 수 있습니다. 우리의 Unity Catalog와 오픈 API 지원을 발표하게 되어 매우 기쁩니다. 이번 파트너십은 통합된 데이터 경험을 제공하여 커뮤니티가 더 큰 인사이트를 얻고 혁신을 추진할 수 있도록 지원하고자 하는 우리의 노력을 강조합니다."

    — Mark Porter, dbt Labs CTO

     

    "데이터브릭스 오픈소스 Unity Catalog가 데이터와 AI를 위한 개방형 표준으로 채택되어 매우 기쁘게 생각합니다. 이번 조치로 데이터브릭스 고객들은 데이터 에코시스템에서 더 많은 선택권과 유연성을 확보하고, 데이터브릭스에서 중요한 데이터를 수집할 때 Fivetran 플랫폼과의 원활한 통합과 상호 운용성을 극대화할 수 있을 것입니다."

    — Anjan Kundavaram, Fivetran CPO

     

    "Unity Catalog 내의 네이티브 액세스 패턴이 공개되면서, 성능에 영향을 주지 않으면서도 데이터 액세스를 간소화하고 거버넌스 규칙을 대규모로 적용할 수 있는 방법이 혁신적으로 바뀌었습니다.  데이터브릭스는 커뮤니티에 지속적으로 투자하여 데이터 제어를 더욱 쉽게 구축할 수 있는 서비스를 가속화함으로써 고객이 더욱 쉽게 거버넌스를 구축하고 AI 시대에 새롭게 유입되는 방대한 양의 데이터를 관리할 수 있게 되었습니다."

    — Matthew Carroll, Immuta CEO

     

    "데이터브릭스 오픈소스 Unity Catalog가 데이터 및 AI를 위한 개방형 표준으로 자리 잡으면서 양사의 공동 고객에게 기회가 주어지게 되어 기대가 큽니다. Unity Catalog와 Informatica 지능형 데이터 관리 클라우드를 통해 고객은 데이터 에코시스템에서 더 많은 선택권, 유연성 및 상호 운용성을 확보할 수 있습니다."

    — Brett Roscoe, GM 겸 클라우드 데이터 거버넌스 및 클라우드 운영 부문 수석 부사장, Informatica

     

    (번역: Youngkyong Ko)  Original Post

    Databricks 무료로 시작하기

    관련 포스트

    모든 플랫폼 블로그 포스트 보기