Unity Catalog의 레이크하우스 페더레이션 기능을 소개합니다
레이크하우스 페더레이션 기능은 현재 퍼블릭 프리뷰(public preview) 단계입니다!
데이터 사용자들은 데이터 파편화, 데이터 통합에 소요되는 시간과 비용, 여러 시스템에 걸친 데이터 거버넌스 관리의 어려움 때문에 원하는 데이터에 빠르게 액세스하는 데 많은 어려움을 겪고 있습니다.
이를 위해 Data+AI Summit 행사에서 Unity Catalog의 레이크하우스 페더레이션(Federation) 기능이 발표되었습니다. 이 기능은 통합 거버넌스를 통해 확장성과 성능이 뛰어난 데이터 메시 아키텍처를 구축할 수 있도록 지원합니다.
Unity Catalog는 데이터와 AI를 위한 통합 거버넌스 솔루션을 제공합니다. Unity Catalog의 레이크하우스 페더레이션 기능을 사용하면 데이터를 이동하거나 복사하지 않고도 간단하고 통합적인 방식으로 MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, Azure Synapse, Google BigQuery 등의 데이터 플랫폼에서 데이터를 검색, 쿼리 및 관리할 수 있습니다. 행 및 열 수준 액세스 제어, 태그와 같은 검색 기능, 데이터 리니지와 같은 Unity Catalog의 고급 보안 기능을 이러한 외부 데이터 소스에서 사용할 수 있어 일관된 거버넌스를 보장합니다.
“이제 데이터 과학자와 비즈니스 사용자 모두 한 곳에서 일관된 권한으로 관리되는 통일된 사용자 인터페이스를 통해 다양한 데이터 원본에 액세스할 수 있습니다." Bayer의 기술 책임자인 Jelle de Jong은 말합니다. "우리는 지속적으로 데이터 형식을 델타 레이크에 맞게 표준화하고 있지만, 이제 데이터 추출을 개발하기 전에 레이크하우스 페더레이션을 통해 민첩하게 반복 작업을 수행할 수 있게 되어 아주 기쁩니다."
데이터 파편화는 혁신을 둔화시킵니다
규모에 관계없이 수천 개의 조직이 데이터브릭스 레이크하우스 플랫폼의 데이터와 AI를 통해 전 세계 모든 산업에서 혁신을 이루고 있습니다. 그러나 역사적, 조직적 또는 기술적 이유로 데이터가 여러 운영 및 분석 시스템에 흩어져 있어 더 많은 문제를 야기하고 있습니다:
- 모든 데이터를 검색하고 액세스하기 어려움: 대부분의 조직에는 여러 데이터 소스에 분산되어 있는 중요한 데이터가 있습니다. 데이터가 여러 데이터베이스, 데이터 웨어하우스, 오브젝트 스토리지 시스템 등에 있을 수 있습니다. 이로 인해 데이터와 인사이트가 불완전하여 고객이 정보에 입각한 의사 결정을 내리고 더 빠르게 혁신하는 데 방해가 됩니다.
- 엔지니어링 병목 현상으로 인한 실행 속도 저하: 여러 데이터 원본에서 데이터를 쿼리하려면 일반적으로 고객은 먼저 외부 데이터 원본에서 선택한 플랫폼으로 데이터를 이동해야 합니다. 일부 데이터는 그런 노력만큼의 가치가 없을 수도 있습니다. 일부 데이터는 하나의 통합된 위치에 도달하기까지 너무 오래 걸리기 때문에 혁신이 느려집니다.
- 사일로화된 시스템들 간 컴플라이언스 약화: 파편화된 거버넌스는 중복 작업을 초래할 뿐만 아니라, 부적절한 액세스나 유출을 모니터링하고 보호하지 못할 위험을 증가시켜, 협업과 데이터 민주화를 저해합니다.
Unity Catalog의 레이크하우스 페더레이션 기능으로 데이터 자산을 통합하세요
Lakehouse Federation addresses these critical pain points and makes it simple for organizations to expose, query, and govern siloed data systems as an extension of their lakehouse. With these new capabilities, you can:레이크하우스 페더레이션은 이러한 중요한 문제점을 해결하고, 기업들이 사일로화된 데이터 시스템을 마치 확장된 레이크하우스처럼 간편하게 연결, 쿼리 및 관리할 수 있도록 지원합니다. 이 신규 기능을 통해 아래와 같은 일을 할 수 있습니다:
- 데이터 자산에 대한 통합 뷰 구축: 정형 및 비정형 데이터를 포함한 모든 데이터를 한곳에서 자동으로 분류 및 검색하고, 조직의 모든 사람이 데이터의 위치에 관계없이 모든 데이터에 안전하게 액세스하고 탐색할 수 있습니다.
- 단일 엔진으로 모든 데이터를 효율적으로 쿼리하고 결합: 단일 엔진으로 모든 데이터에 대한 ad-hoc 분석과 프로토타이핑, 가장 완전한 데이터에 대한 분석 및 AI 활용을 별도의 데이터 수집 과정 없이 더 빠르게 수행할 수 있습니다. 향상된 쿼리 계획과 캐싱을 통해 단일 쿼리로 여러 플랫폼의 데이터에 액세스하고 결합할 때에도 최적의 쿼리 성능을 보장합니다.
- 여러 데이터 소스에 걸쳐 데이터 보호: 단일한 권한 모델을 사용해 액세스 규칙을 설정 및 적용하고 데이터 소스 전반에서 모든 데이터를 안전하게 보호할 수 있습니다. 행 및 열 수준 보안, 태그 기반 정책, 중앙 집중식 감사와 같은 규칙을 플랫폼 전체에 일관되게 적용하고, 데이터 사용량을 추적하고, 내장된 데이터 리니지 및 감사 기능으로 규정 준수 요구 사항을 충족할 수 있습니다.
"레이크하우스 페더레이션은 사용량, 판매, 게임 텔레메트리 데이터와 같은 여러 소스의 데이터를 여러 클라우드에 걸쳐 결합하고 한 곳에서 모두 보고 쿼리할 수 있는 기능을 제공합니다. 이제 데이터를 원본 데이터 소스에 그대로 두고, 데이터브릭스 레이크하우스에서 활용할 수 있습니다." SEGA Europe의 데이터 서비스 책임자 Felix Baker 씨는 말합니다. "자주 갱신되는 재무 데이터를 더 이상 옮길 필요가 없으므로, 귀중한 시간을 절약하여 소비자에게 최상의 게임 경험을 제공하는 데 집중할 수 있습니다."
"레이크하우스 페더레이션을 통해 기존 데이터 환경을 Unity Catalog에 통합하는 작업을 더욱 빠르게 진행할 수 있었습니다. 이를 통해 더 많은 데이터셋을 한 곳에서 검색할 수 있고, 인증이 표준화되며, 공통 프로그래밍 언어로 여러 데이터셋들을 쿼리할 수 있게 되는 등 Shell의 데이터 거버넌스가 더욱 간소화되었습니다." Shell의 최고 디지털 기술 고문인 Bryce Bartmann은 말합니다. "궁극적으로 오늘날 에너지 부문에서 일어나고 있는 변화를 보다 효과적으로 탐색할 수 있게 되었습니다."
이러한 신규 기능과 최근 발표된 개방형 Hive 인터페이스를 이용하여, 기업들은 데이터 관리, 검색, 거버넌스를 Unity Catalog로 중앙 집중화하여 관리할 수 있으며, Amazon EMR, Apache Spark, Amazon Athena, Presto, Trino 등 다양한 컴퓨팅 플랫폼에서 Unity Catalog에 연결할 수 있습니다. 이 새로운 인터페이스를 사용하면 여러 데이터 카탈로그를 유지 관리할 필요가 없으며 이러한 플랫폼 전반에서 일관된 데이터 거버넌스를 유지할 수 있습니다.
What's next?
레이크하우스 페더레이션 기능은 현재 공개 프리뷰 단계이므로, 바로 이용할 수 있습니다.
또한 우리는 델타 유니버설 포맷("UniForm")의 퍼블릭 프리뷰를 통해 Unity Catalog의 거버넌스 기능을 Apache Iceberg와 Hudi를 비롯한 다양한 오픈 스토리지 포맷으로 확장하고 있습니다. 이 통합을 통해 델타 테이블을 Iceberg 테이블(곧 Apache Hudi도 지원 예정)처럼 읽을 수 있게 되어 Unity Catalog는 세 가지 주요 오픈 레이크하우스 스토리지 포맷을 모두 지원하는 유일한 범용 카탈로그가 되었습니다.
마지막으로, 향후에는 Unity Catalog에 정의된 액세스 정책을 페더레이션된 데이터 소스에 푸시하여, 데이터에 접근하는 모든 곳에서 일관된 액세스 정책을 적용할 수 있습니다. 따라서 여러 거버넌스 툴에서 중복된 정책 정의를 유지할 필요가 없습니다.
데이터브릭스의 공동 창립자이자 최고 기술 책임자인 마테이 자하리아의 Data+AI Summit 2023 기조연설에서 자세한 내용을 알아보세요.