주요 컨텐츠로 이동

개방형 Apache Hive Metastore API로 데이터브릭스 Unity Catalog 확장하기

통합 거버넌스를 통해 상호 운용 가능한 개방형 엔터프라이즈 데이터 카탈로그 구축
이 포스트 공유하기

데이터브릭스 Unity Catalog용 Hive 메타스토어 인터페이스(이하 HMS 인터페이스)가 프리뷰(preview)로 발표되었습니다. Apache Hive는 업계에서 가장 널리 지원되는 카탈로그 인터페이스로, 거의 모든 주요 컴퓨팅 플랫폼에서 사용할 수 있습니다. 이제 Apache Hive와 호환되는 모든 소프트웨어가 이 HMS 인터페이스를 이용하여 Unity Catalog에 연결할 수 있습니다. 데이터 관리, 검색 및 거버넌스를 Unity Catalog로 중앙 집중화하고, Amazon Elastic MapReduce(EMR), 오픈 소스 Apache Spark, Amazon Athena, Presto, Trino 등을 비롯한 다양한 컴퓨팅 플랫폼에서 Unity Catalog에 연결할 수 있습니다. 이를 통해 전체 플랫폼 전반에서 일관된 데이터 거버넌스를 보장할 수 있습니다.

이 프리뷰에 참여하려면 데이터브릭스 담당자에게 문의하세요.

Hive Metastore interface for Unity Catalog
Hive Metastore interface for Unity Catalog

오늘날 빠르게 진화하는 데이터 관리 환경에서 많은 조직은 여러 컴퓨팅 플랫폼을 운영하고 있으며, 여러 플랫폼에서 데이터 검색(discovery)와 거버넌스를 일관되게 구현해야 하는 과제에 직면해 있습니다. 이로 인해 데이터 팀은 여러 데이터 카탈로그와 거버넌스 도구를 사용해야 하는 경우가 많고, 이로 인해 운영 오버헤드가 증가하고 데이터 검색, 액세스 관리 및 감사(audit)에 어려움을 겪게 됩니다.

데이터브릭스 Unity Catalog는 데이터, 분석 및 AI를 위한 통합 거버넌스 솔루션으로, 데이터 검색, 권한 관리, 액세스 감사, 데이터 계보 및 품질 추적, 조직 간 데이터 공유를 쉽게 할 수 있도록 다양한 기능을 제공합니다. 이제 HMS 인터페이스를 통해 업계 표준 Apache Hive API를 지원하는 모든 소프트웨어를 Unity Catalog에 연결하여 컴퓨팅 플랫폼 전반에서 거버넌스를 크게 간소화할 수 있습니다.

이 블로그에서는 이 기능이 제공하는 잇점들과 이 기능을 통해 데이터 관리 방식을 개선할 수 있는 방법을 살펴 봅니다.

Unity Catalog용 HMS 인터페이스를 만든 이유

개방성

다양한 데이터 생태계에서 개방성은 원활한 데이터 통합과 협업에 중요한 역할을 합니다. Apache Hive는 업계에서 가장 널리 지원되는 카탈로그 API입니다. Unity Catalog의 개방형 HMS 인터페이스는 데이터브릭스의 개방형 레이크하우스 플랫폼 전략에 부합하며, 엔터프라이즈 데이터에 액세스하고 공급업체 종속을 피할 수 있는 통합되고 표준화된 접근 방식을 제공합니다. 이 개방형 인터페이스와 함께 Unity Catalog를 사용하면 데이터 관리 아키텍처를 간소화하고 현재 및 미래의 툴을 모두 지원할 수 있습니다.

일관된 데이터 거버넌스

여러 플랫폼에서 데이터를 관리하면 일관된 거버넌스를 유지하는 데 많은 어려움이 있습니다. HMS 인터페이스는 Unity Catalog에서 제공하는 엔터프라이즈급 거버넌스를 다양한 컴퓨팅 플랫폼으로 확장하여 이러한 문제를 효과적으로 해결합니다. 이러한 통합은 일관된 데이터 규정 준수를 보장하고, 보안 조치를 강화하며, 강력한 액세스 제어를 시행하고, 중앙 집중식 감사를 용이하게 합니다.

레거시 워크로드를 현대화하는 쉬운 방법

다양한 컴퓨팅 플랫폼에서 실행되는 오래된 레거시 워크로드를 보유한 고객의 경우, HMS 인터페이스 통합을 통해 Unity Catalog에서 메타데이터와 액세스 제어를 중앙 집중화하여 레거시 워크로드와 데이터브릭스 워크로드를 모두 아우를 수 있습니다. 이 통합은 Amazon EMR과 같은 플랫폼에서 실행되는 워크로드를 마이그레이션할 수 있는 간단한 경로를 제공하며, 마이그레이션 프로세스 전반에 걸쳐 일관성을 보장합니다.

비용 최적화

HMS 인터페이스를 이용한 통합은 비용 최적화 측면에서도 큰 이점을 제공합니다. 기존에는 여러 카탈로그를 관리하는 데 상당한 시간과 리소스를 투자해야 했기 때문에 추가 비용이 발생할 뿐만 아니라 복잡성이 증가하고 데이터 불일치가 발생할 수 있는 문제가 있었습니다. 또한 여러 카탈로그 간에 데이터와 정책을 동기화하는 작업은 종종 실패하거나 오류가 발생하기 쉽습니다. 이 통합을 통해 별도의 데이터 카탈로그를 관리, 유지, 동기화할 필요가 없어지므로, 이러한 비용을 줄일 수 있게 됩니다.

결론

Unity Catalog용 HMS 인터페이스는 개방형 상호 운용성과 엔터프라이즈급 거버넌스라는 두 가지 장점을 모두 제공합니다. Unity Catalog를 다양한 컴퓨팅 플랫폼과 연결함으로써, 데이터 접근성 향상, 거버넌스 개선, 확장성, 비용 최적화, 상호 운용성, 미래 대비를 실현하고, 현재 여러 데이터 플랫폼을 관리하는 데 드는 높은 운영 비용을 없앨 수 있습니다. 이를 통해 조직은 데이터 자산을 최대한 활용하는 데 집중할 수 있습니다.

이 흥미로운 프리뷰에 참여하려면 데이터브릭스 담당자에게 문의하세요!

또한 데이터 및 AI 거버넌스에 대한 더 많은 흥미로운 업데이트들과 Data and AI Summit 의 세션들을 놓치지 마세요.

Databricks 무료로 시작하기

관련 포스트

Distributed Data Governance and Isolated Environments with Unity Catalog

Effective data governance is essential for any organization that relies on data, analytics and AI for its operations. In many organizations, there is...

Serving Up a Primer for Unity Catalog Onboarding

November 18, 2022 작성자: Anindita Mahapatra, Mohan Mathews in
Introduction This blog is part of our Admin Essentials series, where we'll focus on topics important to those managing and maintaining Databricks environments...

Welcome Okera: Adopting an AI-centric approach to governance

For a decade, Databricks has focused on democratizing data and AI for organizations around the world. And since the debut of ChatGPT last...
모든 플랫폼 블로그 포스트 보기