주요 컨텐츠로 이동

데이터 메시(Data Mesh)

Data Mesh

데이터는 기업에게 중요하며, 혁신과 발전의 원료로 작용합니다. 조직이 데이터 및 의사 결정 중심으로 변화하면서 그 중요성이 더욱 커졌고, 이에 따라 조직이 대응해야 할 주요 과제가 생겼습니다. 레거시 데이터 레이크와 데이터 웨어하우스는 이러한 문제를 야기하며, 데이터 사일로를 형성하고 가시성을 낮추며, 데이터 처리 속도를 저하시켜 복잡성을 증가시킵니다. 이러한 장벽과 병목 현상은 협업을 방해하고 가치 있는 데이터 자원을 활용하지 못하게 합니다. 기업들은 데이터를 최대한 활용하기 위해 새로운 데이터 아키텍처가 필요합니다. 데이터 메시는 이 문제를 해결할 수 있는 현대적인 데이터 아키텍처입니다.

데이터 메시란 무엇인가요?

데이터 메시는 대규모 데이터를 관리하고 그 데이터에서 더 많은 가치를 추출하기 위한 조직적 데이터 아키텍처입니다.

분산화는 데이터 메시의 핵심입니다. 데이터는 한 팀이 전체 조직을 위해 중앙에서 관리하는 대신, 여러 비즈니스 도메인이 독립적으로 소유하고 관리하며, 중앙의 거버넌스 규칙은 데이터가 상호 운용 가능하고 안전하며 의미론적으로 일관성을 유지하게 합니다.

도메인 데이터 관리자는 고품질의 데이터 제품을 제공하고 그들의 데이터를 보호하는 책임이 있습니다. 그들은 전체 조직의 데이터가 아닌 자신들의 도메인 비즈니스 데이터에만 책임을 지므로, 강력한 데이터 거버넌스를 유지하면서 더 관련성 있는 데이터를 더 빠르고 효율적으로 제공할 수 있습니다.

데이터 메시 원칙은 비즈니스 자율성과 글로벌 상호 운용성을 균형있게 조절합니다. 이 아키텍처는 중앙 집중식 팀에 대한 의존성을 줄이고 데이터 사일로를 피하면서, 팀이 비즈니스 가치를 창출하는 데이터 제품을 공동으로 만들고 공유하는 협업 환경을 촉진합니다.

기타 관련 인사이트

데이터 메시 아키텍처 원칙

논리적인 데이터 메시 아키텍처의 기반을 제공하는 네 가지 원칙:

  1. 도메인 소유: 데이터 메시는 도메인 팀이 데이터의 전체 수명 주기에 대한 전체 책임과 자율성을 유지하는 분산 아키텍처를 사용합니다. 이러한 도메인 팀은 판매 또는 회계와 같은 조직 내의 다른 부서 또는 기능으로 구성되며, 각각이 자체 데이터를 생성합니다. 도메인 소유권은 데이터에 가장 익숙한 사용자가 데이터를 소유하도록 보장합니다.
  2. 제품으로서의 데이터: 데이터는 제품으로 취급되며, 조직 내의 팀과 부서는 고객으로 취급됩니다. 조직은 제품 관리 원칙을 데이터 분석 수명주기에 적용하여, 데이터 소비자에게 품질이 높은 데이터를 제공합니다. 데이터 제품은 발견 가능하고, 신뢰할 수 있으며, 자기 설명적이고, 주소 지정 가능하며, 상호 운용 가능해야 합니다. 데이터와 메타데이터 외에도 코드, 대시보드, 기능, 모델 및 데이터 제품을 생성하고 유지하는 데 필요한 기타 자산을 포함할 수 있습니다.
  3. 자기 서비스 인프라스트럭처 플랫폼: 도메인 팀이 자신의 데이터 제품을 관리하는 동안, 조직은 조화롭고 자동화된 플랫폼을 사용하여, 상호 운용 가능한 데이터 제품을 구축, 운영, 유지합니다. 자기 서비스 플랫폼의 프레임워크 내에서 표준 도구를 제공함으로써 데이터 메시 아키텍처의 확장성을 가능하게 합니다.
  4. 연합 거버넌스: 이 원칙은 도메인 전반에 걸쳐 중앙에서 일관된 데이터 거버넌스를 보장합니다. 준수 사항은 데이터 카탈로그, 데이터 거버넌스 도구, 자동화된 정책 집행을 통해 중앙에서 추적하고 관리합니다. 이는 조직의 규칙과 업계 규정을 준수하는 데이터 생태계를 보장합니다.

데이터 메시의 이점

전통적으로, 조직들은 데이터를 관리하기 위해 중앙집중식 데이터 팀을 사용합니다 - 비즈니스 전반에 걸쳐 데이터 저장, 형식화, 처리 및 분석을 포함합니다. 이는 일관된 데이터 관리와 거버넌스를 보장하지만, 병목 현상을 만들어냅니다. 팀들은 종종 이러한 중앙집중화를 피하기 위해 실수로 데이터 결정을 가속화하는 사일로를 만듭니다. 그러나, 이는 데이터 사용자가 적시에 관련성 있는 정확한 데이터를 얻는 것을 방해합니다. 또한, 중앙집중식 데이터 및 AI 팀은 도메인 데이터셋에 대한 독특한 맥락을 제한적으로 이해하므로, 의미 있는 데이터 제품에 대한 기회를 놓치게 됩니다.

데이터의 양과 가치가 계속 증가함에 따라, 중앙집중식 데이터 및 AI 팀은 종종 수요를 따라잡지 못하게 됩니다. 이로 인해 팀이 과부하가 걸리고, 비즈니스 사용자가 필요한 데이터에 접근하고 사용하는 것을 방해하며, 조직이 데이터의 전체 가치를 실현하는 것을 방해합니다.

데이터 메시에서는 데이터 관리가 분산되어 도메인 전문가의 손에 넘겨집니다. 이들은 자신이 다루는 데이터를 이해합니다. 이로 인해 여러 가지 이점이 생깁니다:

  • 속도와 단순성: 사용자는 요청, 변경, 승인을 위해 도메인 관리자에게 직접 연락함으로써 더 빠르게 올바른 데이터에 접근할 수 있습니다.
  • 고품질 데이터 제품: 도메인 데이터 관리자는 비즈니스 사용자에게 가치를 제공하는 더 관련성 있는 고품질 제품을 만듭니다.
  • 개선된 발견: 관리와 접근이 분산되어 있지만, 모든 데이터는 중앙에서 기록되고 관리되어, 실로를 방지하고 데이터를 찾기 쉽게 만듭니다.
  • 비용 및 성능 효율성: 분산 데이터 아키텍처는 실시간 데이터 스트리밍의 채택을 촉진하고 리소스 할당 및 저장에 대한 가시성을 향상시켜 더 효율적이고, 더 나은 재무 계획을 가능하게 하며 비용을 줄입니다.
  • 강력한 거버넌스: 연합 보안 및 준수 정책은 도메인 내부뿐만 아니라 그 사이에서도 시행됩니다. 모니터링과 감사는 일관된 준수를 보장하기 위해 중앙에서 이루어집니다.

데이터 메시 구축 블록

데이터 메시를 만들기 위해서는, 조직이 다음과 같은 요소를 갖추어야 합니다:

  • 데이터 제품 계약의 글로벌 청사진, 데이터 발견을 위한 출판 플랫폼, 중앙화된 거버넌스 프로세스 및 권한 등 공통 표준 및 프로세스를 설정하는 포괄적인 데이터 제품 전략이며, 사용자에게 자체 서비스 경험을 제공합니다.
  • 모든 데이터가 통합되어 존재하며, 다양한 분석 작업을 수행할 준비가 된 조화로운 플랫폼, 예를 들어 데이터 인텔리전스 플랫폼입니다.
  • 다양한 데이터 인물 간의 협업을 보장하고, 데이터 품질을 제공하며, 모든 데이터 및 AI 작업 간의 상호 운용성 및 생산성을 촉진하는 유연한 플랫폼입니다.
  • 접근 제어와 데이터 카탈로그를 중앙에서 관리하는 데이터 거버넌스 서비스를 통해 도메인 간 협업과 자체 서비스 분석을 촉진합니다.
  • 도메인 간의 데이터를 원활하게 공유할 수 있게 하는 연합 공유 계층이 필요합니다.
  • 많은 조직에서는 데이터를 외부 당사자와 안전하게 공유하는 방법을 고려해야 하는 필요성도 있습니다.

Databricks 데이터 인텔리전스 플랫폼과 함께 데이터 메시 채택

Databricks 데이터 인텔리전스 플랫폼 은 조직이 데이터 메시 아키텍처를 채택하고 데이터 관리 접근 방식을 현대화하기 위한 기술적 기반을 제공합니다. Databricks는 성능과 기능이 데이터 웨어하우스 와 현대적인 데이터 레이크의 저비용 유연성 및 확장성을 결합한 클라우드 네이티브 데이터, 분석 및 AI 플랫폼입니다. 그것의 개방형 아키텍처는 데이터가 어떻게 구성되고 구조화되는지에 대한 유연성을 제공하면서, 데이터와 분석 작업량에 걸쳐 통합된 관리 인프라를 제공합니다.

Databricks 플랫폼은 도메인 중심의 데이터 메시를 지원하는 작업 공간이라는 단위로 구성됩니다. Databricks는 여러 작업 공간을 지원하며, 각각이 하나 이상의 도메인에 해당합니다. 각각은 지역적으로 소유하고 관리되며 협업을 위한 홈으로 작용합니다. 작업 공간 내에서 도메인은 조직 전체의 자체 서비스 인프라를 사용하여 데이터 제품을 관리할 수 있습니다.

Databricks는 데이터 관리와 처리를 위한 도구를 제공합니다. 이는 배치 및 스트리밍 데이터 처리를 모두 허용하여 사용자가 데이터 제품을 보다 효율적으로 생성하고 관리할 수 있게 합니다. 또한 테이블 저장 형식을 통합하여 각 도메인이 선호하는 형식을 사용하면서 데이터 저장 및 메타데이터 관리에 대한 통합된 접근 방식을 유지할 수 있습니다.

Databricks의 Unity Catalog, 데이터와 AI를 위한 유일한 통합 및 오픈 데이터 거버넌스 솔루션은 데이터 메시에 있어 중요합니다. Unity 카탈로그는 거버넌스, 보안, 사용자 관리 및 메타데이터를 작업 공간 간에 통합하여 중앙 집중식 관리를 가능하게 합니다. 발견성 및 계보와 같은 데이터 카탈로그 기능을 제공하며, 세분화된 접근 제어 및 감사 로깅의 시행을 보장합니다. 보안 및 접근 제어는 한 번만 관리되므로 데이터 거버넌스를 단순화합니다. Unity Catalog는 데이터를 카탈로그로 구성하여, 도메인 특정 데이터 제품의 관리를 허용합니다.

Databricks는 또한 내부 및 외부 도메인 간의 협업을 지원하기 위해 엔터프라이즈 등급의 상호 운용 가능한 데이터 공유를 제공합니다. Delta Sharing 은 컴퓨팅 플랫폼이나 클라우드 지역에 상관없이 조직이 데이터를 안전하게 공유할 수 있게 합니다. Delta Sharing은 데이터 마켓플레이스를 통해 데이터를 게시하거나 획득하는 등의 다양한 외부 데이터 공유 활동의 기반이 됩니다.

Unity Catalog와 Delta Sharing을 통해 Databricks는 조직에 데이터와 분석을 대규모로 조직하고 관리하는 유연성을 제공합니다. 데이터는 데이터 메시 또는 다중 테넌트 아키텍처에서 조직될 수 있으며, 중앙 집중식 및 분산 데이터 관리 솔루션을 모두 지원합니다.

데이터 메시 아키텍처는 기업에게 데이터를 접근하고 그 가치를 완전히 활용하는 새로운 방법을 제공합니다. Databricks는 보장된 상호 운용성, 비용 효율성, 거버넌스, 단순성을 가진 이 비전을 실현하기 위한 개방적이고 확장 가능한 기반을 제공합니다.

    용어집으로 돌아가기