레이크하우스 페더레이션 기능은 현재 퍼블릭 프리뷰(public preview) 단계입니다!
데이터 사용자들은 데이터 파편화, 데이터 통합에 소요되는 시간과 비용, 여러 시스템에 걸친 데이터 거버넌스 관리의 어려움 때문에 원하는 데이터에 빠르게 액세스하는 데 많은 어려움을 겪고 있습니다.
이를 위해 Data+AI Summit 행사에서 Unity Catalog의 레이크하우스 페더레이션(Federation) 기능이 발표되었습니다. 이 기능은 통합 거버넌스를 통해 확장성과 성능이 뛰어난 데이터 메시 아키텍처를 구축할 수 있도록 지원합니다.
Unity Catalog는 데이터와 AI를 위한 통합 거버넌스 솔루션을 제공합니다. Unity Catalog의 레이크하우스 페더레이션 기능을 사용하면 데이터를 이동하거나 복사하지 않고도 간단하고 통합적인 방식으로 MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, Azure Synapse, Google BigQuery 등의 데이터 플랫폼에서 데이터를 검색, 쿼리 및 관리할 수 있습니다. 행 및 열 수준 액세스 제어, 태그와 같은 검색 기능, 데이터 리니지와 같은 Unity Catalog의 고급 보안 기능을 이러한 외부 데이터 소스에서 사용할 수 있어 일관된 거버넌스를 보장합니다.
“이제 데이터 과학자와 비즈니스 사용자 모두 한 곳에서 일관된 권한으로 관리되는 통일된 사용자 인터페이스를 통해 다양한 데이터 원본에 액세스할 수 있습니다." Bayer의 기술 책임자인 Jelle de Jong은 말합니다. "우리는 지속적으로 데이터 형식을 델타 레이크에 맞게 표준화하고 있지만, 이제 데이터 추출을 개발하기 전에 레이크하우스 페더레이션을 통해 민첩하게 반복 작업을 수행할 수 있게 되어 아주 기쁩니다."
규모에 관계없이 수천 개의 조직이 데이터브릭스 레이크하우스 플랫폼의 데이터와 AI를 통해 전 세계 모든 산업에서 혁신을 이루고 있습니다. 그러나 역사적, 조직적 또는 기술적 이유로 데이터가 여러 운영 및 분석 시스템에 흩어져 있어 더 많은 문제를 야기하고 있습니다:
Lakehouse Federation addresses these critical pain points and makes it simple for organizations to expose, query, and govern siloed data systems as an extension of their lakehouse. With these new capabilities, you can:레이크하우스 페더레이션은 이러한 중요한 문제점을 해결하고, 기업들이 사일로화된 데이터 시스템을 마치 확장된 레이크하우스처럼 간편하게 연결, 쿼리 및 관리할 수 있도록 지원합니다. 이 신규 기능을 통해 아래와 같은 일을 할 수 있습니다:
"레이크하우스 페더레이션은 사용량, 판매, 게임 텔레메트리 데이터와 같은 여러 소스의 데이터를 여러 클라우드에 걸쳐 결합하고 한 곳에서 모두 보고 쿼리할 수 있는 기능을 제공합니다. 이제 데이터를 원본 데이터 소스에 그대로 두고, 데이터브릭스 레이크하우스에서 활용할 수 있습니다." SEGA Europe의 데이터 서비스 책임자 Felix Baker 씨는 말합니다. "자주 갱신되는 재무 데이터를 더 이상 옮길 필요가 없으므로, 귀중한 시간을 절약하여 소비자에게 최상의 게임 경험을 제공하는 데 집중할 수 있습니다."
"레이크하우스 페더레이션을 통해 기존 데이터 환경을 Unity Catalog에 통합하는 작업을 더욱 빠르게 진행할 수 있었습니다. 이를 통해 더 많은 데이터셋을 한 곳에서 검색할 수 있고, 인증이 표준화되며, 공통 프로그래밍 언어로 여러 데이터셋들을 쿼리할 수 있게 되는 등 Shell의 데이터 거버넌스가 더욱 간소화되었습니다." Shell의 최고 디지털 기술 고문인 Bryce Bartmann은 말합니다. "궁극적으로 오늘날 에너지 부문에서 일어나고 있는 변화를 보다 효과적으로 탐색할 수 있게 되었습니다."
이러한 신규 기능과 최근 발표된 개방형 Hive 인터페이스를 이용하여, 기업들은 데이터 관리, 검색, 거버넌스를 Unity Catalog로 중앙 집중화하여 관리할 수 있으며, Amazon EMR, Apache Spark, Amazon Athena, Presto, Trino 등 다양한 컴퓨팅 플랫폼에서 Unity Catalog에 연결할 수 있습니다. 이 새로운 인터페이스를 사용하면 여러 데이터 카탈로그를 유지 관리할 필요가 없으며 이러한 플랫폼 전반에서 일관된 데이터 거버넌스를 유지할 수 있습니다.
레이크하우스 페더레이션 기능은 현재 공개 프리뷰 단계이므로, 바로 이용할 수 있습니다.
또한 우리는 델타 유니버설 포맷("UniForm")의 퍼블릭 프리뷰를 통해 Unity Catalog의 거버넌스 기능을 Apache Iceberg와 Hudi를 비롯한 다양한 오픈 스토리지 포맷으로 확장하고 있습니다. 이 통합을 통해 델타 테이블을 Iceberg 테이블(곧 Apache Hudi도 지원 예정)처럼 읽을 수 있게 되어 Unity Catalog는 세 가지 주요 오픈 레이크하우스 스토리지 포맷을 모두 지원하는 유일한 범용 카탈로그가 되었습니다.
마지막으로, 향후에는 Unity Catalog에 정의된 액세스 정책을 페더레이션된 데이터 소스에 푸시하여, 데이터에 접근하는 모든 곳에서 일관된 액세스 정책을 적용할 수 있습니다. 따라서 여러 거버넌스 툴에서 중복된 정책 정의를 유지할 필요가 없습니다.
데이터브릭스의 공동 창립자이자 최고 기술 책임자인 마테이 자하리아의 Data+AI Summit 2023 기조연설에서 자세한 내용을 알아보세요.