주요 컨텐츠로 이동

Delta Sharing이 안전한 엔드투엔드 협업을 지원하는 방법

실제 공유 시나리오를 통해 Delta Sharing의 안전한 아키텍처, 유연성, 적응성, 플랫폼 및 클라우드 전반에서 Unity Catalog 와의 통합을 보여줍니다
빌랄 오베이닷
바빈 쿠카디아
지젤 고이코체아
이 포스트 공유하기

오늘날의 디지털 환경에서 안전한 데이터 공유는 운영 효율성과 혁신에 매우 중요합니다. 데이터브릭스와 리눅스 재단은 데이터, 분석 및 AI 전반에 걸친 최초의 오픈 소스 접근 방식인 Delta Sharing을 개발했습니다. 데이터브릭스는 안전한 데이터 교환을 제공하여 플랫폼, 클라우드, 지역 간 원활한 공유를 지원합니다. 모든 규모의 기업이 광범위한 애플리케이션과 다양한 데이터 형식을 지원하는 Delta Sharing 을 신뢰합니다. 이러한 유연성으로 인해 데이터 자산의 잠재력을 최대한 활용하고자 하는 조직에서 신뢰할 수 있는 도구로 사용할 수 있습니다.

이 블로그에서는 다음 세 가지 데이터 공유 시나리오를 통해 Delta Sharing의 보안 아키텍처를 리뷰합니다: Databricks 고객과 Databricks 고객 간 공유 (D2D), Databricks 고객과 개방형 공유 (D2O), 클라우드간 데이터 공유 시나리오입니다. 다양한 플랫폼과 클라우드에서 간소화되고 안전한 데이터 교환을 통해 운영 효율성을 높이고, 복잡성과 위험을 줄이는 등, 최신 데이터 협업 전략의 일환으로 Delta Sharing 을 통해 얻을 수 있는 이점을 요약해 보겠습니다. 이 안전한 프레임워크는 인사이트 도출 시간을 단축하여 더 빠른 의사결정을 가능하게 하는 동시에 강력한 개인정보 보호를 유지하여 이해관계자 간의 신뢰를 높입니다. 또한 Delta Sharing 의 유연성은 다양한 데이터 형식과 애플리케이션을 지원하므로 진화하는 비즈니스 요구사항에 안전하게 적응할 수 있습니다. 각 시나리오 별로 직접 사용중인 고객들이 이 솔루션의 혁신적인 영향에 대해 언급하는 추천사가 포함되어 있습니다. 이 블로그에서는 데이터브릭스 Delta Sharing, 즉 데이터 제공업체가 데이터브릭스 플랫폼의 관리형 버전을 사용하는 시나리오에 초점을 맞출 것입니다.

Databricks to Databricks 데이터 공유 (D2D)

D2D 시나리오는 데이터브릭스 에코시스템 내에서 두 데이터브릭스 고객 간의 안전하고 간소화된 데이터 교환을 예시합니다. 데이터브릭스 관리형 연결을 사용하고 토큰 교환 시스템이 필요 없어, 간편함과 보안을 모두 보장합니다.

D2D 공유를 사용하는 고객들에게 Delta Sharing 의 Unity Catalog (UC)와의 기본 통합을 통해 공유 운영을 위한 통합 거버넌스 및 보안을 제공합니다. 공유가 데이터에만 국한되지 않는다는 점을 기억하세요. Unity Catalog는 데이터 세트를 넘어 볼륨, 노트북, AI 모델까지 폭넓은 기능을 제공합니다. Delta Sharing 를 통한 계정 내 공유 기능은 기본으로 활성화되어 있으며, 반면 외부 공유는 권한있는 관리자 설정을 통해  활성화할 수 있습니다. 데이터브릭스 Delta Sharing을 설정하려면 Unity Catalog와 Metastore가 활성화된 워크스페이스가 필요하며, 관리자 역할(role) 또는 CREATE SHARE 와 CREATE RECIPIENT 권한이 필요합니다. (계정 설정에 대한 설명서를 참조하세요)

Unity Catalog 는 수신자를 생성하고 공유를 설정하는 초기 단계부터 액세스 권한을 부여하는 중요한 행위까지 전체적으로 통합된 거버넌스 계층을 제공합니다. Delta Sharing 서비스는 API 요청 처리시 철저한 권한 확인을 수행하고 자세한 활동 로그를 보관합니다.이러한 모든 단계는 공유 생태계를 원활하게 운영하기 위해 신뢰할 수 있는 잘 기름칠된 기계처럼 운영이 안전하면서도 투명하게 이루어지도록 보장합니다.

데이터 액세스: 인증 후 데이터 액세스에 대해 자세히 살펴보면 Unity Catalog 가 다시 한번 중요한 요소입니다. Unity Catalog 에서 승인을 받으면 자산 유형 및 공유 설정 등의 요소에 따라 클라우드 토큰 또는 사전 서명된 URL 중 액세스 방법이 결정됩니다. 클라우드 토큰의 경우, 제공업체의 UC에서 범위가 제한된 읽기 전용 SAS 토큰을 발급한 다음 수신자의 컴퓨트 플레인으로 전달합니다. 이렇게 하면 테이블 루트 디렉터리에 한시적으로 안전하게 저장소에 액세스할 수 있습니다. 마찬가지로 사전 서명된 URL을 사용하면 관련 URL 목록이 생성되어 수신자의 컴퓨트 플레인으로 전송되어 스토리지 파일에 대한 안전한 임시 액세스를 제공합니다. 다양한 클라우드 서비스를 사용할 경우, Azure SAS 토큰과 AWS 사전 서명된 URL과 같은 보안 기능을 전략적으로 사용하면 권한이 있는 개인만 지역 및 클라우드에서 안전하게 데이터에 액세스하도록 할 수 있습니다. 또한 이 상호 작용은 수신자와 제공자의 컨트롤 플레인으로 제한되며, 외부 에이전트가 트리거할 수 없도록 권한이 설정되어 외부 침입으로부터 보호합니다. 이 방법은 시스템의 적응성을 강조하여 Data Sharing 이 유연하고 안전하며 다양한 비즈니스 요구 사항을 능숙하게 수용하도록 보장합니다. 

Delta Sharing: 데이터 액세스

코스탈 커뮤니티 은행은 파트너 네트워크의 엄격하고 까다로운 규정 준수 및 보안 요구 사항을 충족하기 위해 Delta Sharing을 선택했습니다. 코스탈은 현대적 데이터 플랫폼을 개발하기 위해 Cavallo Technologies를 선택했습니다. 코스탈은 현재와 미래를 위해 유연한 솔루션이 필요했다고 Cavallo Technology의 사장 Rob Cavallo가 설명합니다. 코스탈 커뮤니티 뱅크 사례 연구를 읽어보세요.

"어떤 면에서 코스탈[커뮤니티 은행]은 쉬운 협업을 지원하면서도 소비자 금융 데이터에 대한 최고의 보안 표준을 충족해야 하는 역설을 요구하고 있었습니다. 플랫폼이 오늘날의 워크로드에 적합한 성능과 비용 효율성을 제공하는 동시에 아직 상상하지 못한 미래의 사용 사례도 처리할 수 있을 만큼 적응력을 갖추는 것이 중요합니다. 결국, 저희가 찾은 플랫폼은 데이터브릭스 데이터 인텔리전스 플랫폼 뿐이었습니다." - Rob Cavallo, 카발로 테크놀로지 사장

안전한 Data Sharing, 테이블을 넘어서

Delta Sharing 은 단순한 테이블 형식의 데이터 그 이상을 지원하며 볼륨, 노트북, AI 모델과 같은 비테이블 형식의 데이터 자산을 포함하여 데이터 협업에 대한 보다 전체적인 접근 방식을 포용합니다. 이러한 자산 유형은 현재 D2D 공유 프레임워크에서만 지원되어, 협업 생태계를 강화하고 있습니다. AI 모델은 볼륨과 비슷한 방식으로 공유되지만 노트북은 고유한 공유 메커니즘을 갖추고 있습니다. 수신자는 미리 서명된 URL을 통해 노트북을 미리 볼 수 있으며, 팝업 창에서 컨텐츠를 HTML로 렌더링해 즉시 액세스할 수 있습니다. 보다 긴밀한 통합을 위해 노트북을 수신자 환경으로 가져올 수도 있으며, 원활한 전환을 위해 Base64 인코딩과 API 호출을 활용할 수도 있습니다.

AI 모델 공유는 공급자의 UC에서 발급한 안전한 읽기 전용 범위 제한 SAS 토큰을 통해 이루어지며, 이 토큰은 생성한 다음 수신자의 컴퓨트 플레인으로 전달됩니다. 이 접근 방식은 수신자의 UC에 있는 Model Registry 에 일회성 사본을 허용하여 안전하고 효율적인 액세스를 보장하고 모델의 불필요한 사본이 필요하지 않도록 합니다. 그 다음 이 모델 사본을 여러 지역에 배포하여 추론 프로세스를 최적화하고 지연 시간을 줄이면서 성능을 향상하며 최종 사용자와 더 가까운 지역 데이터 센터를 활용하여 더 빠른 응답 시간을 제공할 수 있습니다. 공유 볼륨과 AI 모델을 검색, 액세스 및 활용하는 것은 비슷하면서도 각 데이터 유형에 맞는 맞춤형 접근 방식을 통해 데이터 공유 및 협업을 위한 안전하고 다목적 플랫폼을 제공합니다.

Databricks to Open 데이터 공유 (D2O)

개방형 공유 시나리오로 전환하면서, D2O는 데이터브릭스가 아닌 외부 타사 사용자와 데이터를 공유하는 데이터브릭스 고객에 대해 엄격한 보안 프로토콜을 유지합니다. D2O를 사용하면 수신자들이 Pandas, Tableau, Apache Spark, Rust 또는 오픈 프로토콜을 지원하는 다양한 시스템들에서 Delta Sharing Connector를 이용하여 특정한 컴퓨팅 플랫폼 없이도 공유 데이터에 직접 연결할 수 있습니다.

데이터브릭스에서 공개 수신자를 생성하면 안전한 일회성 활성화 URL이 생성되어 수신자가 Delta Sharing 엔드포인트 주소와 토큰이 포함된 자격증명 파일을 다운로드할 수 있습니다. 보안 침해가 발생하는 경우 제공업체는 수신자의 자격 증명을 변경하거나 읽기 권한을 철회하는 등의 즉각적인 조치를 취하여 추가 문제를 방지할 수 있습니다.

데이터 액세스 워크플로: 수신자가 위에서 언급한 커넥터 중 하나를 사용하여 공유 테이블을 쿼리하면 Delta Sharing 에서 자격 증명 파일의 토큰을 사용하여 수신자를 확인하고 데이터 액세스 용도의 미리 서명된 URL을 제공합니다. 이 접근 방식은 다양한 오픈 소스 커넥터와의 호환성을 보장하여 공유 자산의 무결성과 보안을 보호합니다. (데이터 공유 및 액세스에 대한 자세한 내용을 참조하세요.)

세계 최대의 자동차 서비스 조직인 Cox Automotive Europe(Cox Automotive의 일부)은 강력한 보안과 거버넌스를 보장하면서 기업 데이터 서비스 팀 외부에서 공유되는 데이터를 중앙에서 관리 및 감사하기 위해 Delta Sharing을 사용하고 있습니다. Cox Automotive 사례 연구를 읽어보세요.

"델타 공유를 사용하면 데이터를 복사하거나 복제하지 않고도 사업부 및 자회사와 안전하게 데이터를 쉽게 공유할 수 있습니다. 이를 통해 수신자가 우리 워크스페이스에 계정이 없어도 데이터를 공유할 수 있습니다." - 로버트 햄릿, Cox Automotive의 수석 데이터 엔지니어

Cross-Cloud 데이터 공유

기업들은 여러 클라우드 플랫폼에서 다양한 기능을 지원하거나 파트너십을 촉진하거나 인수 후 다른 조직의 데이터를 통합해야 할 필요성에 따라 크로스 클라우드 전략을 점점 더 많이 채택하고 있습니다. 멀티 클라우드 환경으로의 전환에 따라, 조직이 내부 및 외부에서 원활하고 안전하게 공유할 수 있도록 Delta Sharing 과 같은 강력한 솔루션을 구현하는 것이 더욱 중요해 집니다. 고객이 상호 연결된 디지털 에코시스템에서 운영 연속성을 유지하고 혁신을 촉진하며 성장을 촉진하는 동시에 각 클라우드 서비스의 고유한 강점을 활용할 수 있는 능력을 갖추기 위해서는 크로스 클라우드 전략을 구현하는 것이 필수적인 경우가 많습니다.

크로스 클라우드 전략을 채택하는 많은 고객에게 멀티 클라우드 환경을 원활하게 지원하는 Delta Sharing 의 개방형 크로스 플랫폼 공유 기능은 분명한 차별화 요소이자 장점입니다. Delta Sharing 는 단일 클라우드 내에서 내부적으로 데이터를 공유하든, 여러 클라우드 플랫폼에서 외부로 데이터를 공유하든 똑같이 효과적이며, 두 시나리오 모두에서 안전하고 효율적인 데이터 교환 프로세스를 보장합니다. 데이터브릭스는 많은 고객으로부터 멀티클라우드 환경에서의 데이터 공유 요구 사항에 대해, 그리고 Delta Sharing이 클라우드 에코시스템 전반에서 상호 운용성을 촉진하고 보안을 강화하는 데 어떻게 도움이 되는지에 대한 이야기를 들었습니다.

이러한 데이터브릭스 고객 중 하나는 국제 거래 기관이자 시장 인프라 제공업체인 Deutsche Börse입니다. 고객과 공개적으로 공유하고 협업할 수 있는 Delta Sharing 을 구현한 후 비즈니스에 미친 영향은 혁신적이었습니다.

"세분화된 액세스 제어, 최고의 보안 표준, 개인정보 보호를 보장하는 안전한 Data Sharing 플랫폼은 새로운 가능성을 열어줍니다. 과거에는 '안타깝게도 고객이 데이터와 모델을 공유하고 싶지 않거나, 우리가 기밀 유지 때문에 더 세분화된 데이터나 모델을 공유하고 싶지 않습니다'라고 말했을텐데, 이제는 맞춤형 솔루션에 대한 대화를 나눌 수 있게 되었습니다." - 얀 슈티빙, 비즈니스 전략 및 M&A 책임자, Deutsche Börse

이 고객 사례와 다른 많은 고객 사례에서 Delta Sharing 는 최고 수준의 보안과 개인정보 보호를 유지하면서 한때 극복할 수 없는 것으로 여겨졌던 데이터 공유와 협업의 격차를 해소할 수 있습니다. Deutsche Börse는 Databricks Marketplace에서도 여러 시장 데이터 목록을 제공합니다.

네트워크 및 스토리지 구성

Delta Sharing 는 클라우드의 기본 스토리지 보안 아키텍처와 원활하게 통합되어 다양한 클라우드 환경 전반에서 안전하고 원활한 데이터 공유를 지원합니다. 기존 보안 프레임워크를 크게 수정할 필요 없이 이 기능을 사용할 수 있습니다. 이 접근 방식은 Azure, AWS, GCP와 같은 클라우드 플랫폼에서 데이터브릭스를 사용하는 조직을 위해 설계되었으며, Unity Catalog의 요구 사항에 부합합니다. 데이터 인텔리전스 플랫폼은 클라우드 스토리지 솔루션(ADLS Gen2, S3, GCS)에서 보안 강화를 위해 프라이빗 통신 채널 또는 IP 주소 화이트리스트를 사용하여 데이터를 공유할 수 있도를 지원합니다.

아래에 설명된 Delta Sharing 의 네트워크 및 스토리지 구성은 클라우드 내 및 클라우드 간 시나리오 모두에서 작동합니다. 클라우드 내 공유는 프라이빗 엔드포인트, 스토리지 방화벽, 네트워크 게이트웨이를 사용하여 동일한 클라우드 에코시스템 내에서 퍼블릭 액세스를 허용하지 않고 안전하게 데이터를 교환할 수 있도록 지원합니다. 클라우드 간 공유 시나리오에서 Delta Sharing 은 NAT 게이트웨이 egress IP를 활용하고 site-to-site VPN 또는 전용 링크와 같은 기존의 클라우드 간 프라이빗 연결을 지원하여, 서로 다른 클라우드 플랫폼과 온프레미스 네트워크에서 안전한 데이터 액세스를 가능하게 합니다. 이 포괄적이고 안전한 접근 방식을 통해 다양한 네트워크 인프라가 Delta Sharing 에 효율적으로 연계되어 유연성과 보안을 모두 강화할 수 있습니다.

네트워크 및 스토리지 구성

위 다이어그램은 클라우드 간 네트워크 구성의 예를 나타냅니다.

데이터 필터링

Delta Sharing 에서 데이터 필터링은 유연하고 안전한 액세스를 제공하는 데 매우 중요하며, 두 가지 주요 방법이 있습니다:

  • 파티션 필터링: 매개변수화된 파티션 공유 방식을 사용하여 수신자 속성에 맞는 특정 테이블 파티션을 공유할 수 있습니다. 이 전략을 통해 데이터 제공업체는 필요한 데이터 부분을 유연하게 공유하여 액세스를 제어할 수 있습니다.
  • 동적 뷰(Dynamic View): current_recipient와 같은 동적 함수를 통해 수신자와 데이터의 하위 집합을 공유할 수 있어 데이터 액세스를 세밀하게 제어하고 관리 편의성을 향상시킬 수 있습니다.

특정 수신자 속성을 기반으로 액세스 제한을 허용하여 의도한 수신자와 적절한 상황에서만 데이터를 공유할 수 있도록 합니다. 이러한 접근 방식은 Delta Sharing 의 보안과 유연성을 강화하여 수신자의 고유한 요구 사항을 충족하는 맞춤형 데이터 액세스를 가능하게 합니다.

보안, 유연성 그리고 Delta Sharing과의 원활한 통합

결론적으로, Delta Sharing 은 데이터브릭스 데이터 인텔리전스 플랫폼의 핵심 구성 요소이며, 안전하고 유연하며 크로스 플랫폼 데이터 공유 기능을 통해 최신 데이터 전략을 지원합니다. 오픈소스 커넥터를 통해 다른 플랫폼을 지원할 뿐만 아니라, Delta Sharing 을 통해 고객은 정형 및 비정형 데이터는 물론 AI 모델도 공유할 수 있습니다. 이러한 모든 기능은 Delta Sharing 을 다른 데이터 교환 플랫폼과 분명하게 차별화합니다. 그 결과, Delta Sharing 은 다양한 산업 분야의 고객들로부터 폭넓은 신뢰를 받고 있으며, 많은 고객 평가에서  운영 효율성과 혁신에 중요한 영향을 미치고 있다고 언급하고 있습니다. 데이터 공유 환경이 계속 진화함에 따라 Delta Sharing 은 다양한 데이터 공유 에코시스템에 걸쳐 보안, 유연성, 원활한 통합을 우선시하며 미래를 위해 구축되었습니다. 이러한 확고한 노력 덕분에 Delta Sharing 은 전 세계 기업의 디지털 목표를 달성하기 위해 데이터의 힘을 활용하는 데 없어서는 안 될 자산으로 자리매김했습니다.

조직 내에서 Delta Sharing 을 구현하는 방법에 대해 자세히 알아보려면 아래의 새 전자책과 관련 블로그 등 최신 리소스를 확인하거나 Delta Sharing 문서를 자세히 살펴보세요.

이미 Delta Sharing 고객인 경우, [email protected]에서 팀에 문의하거나 피드백을 제공할 수도 있습니다.

 

(번역: Youngkyong Ko)  Original Post

Databricks 무료로 시작하기

관련 포스트

모든 플랫폼 블로그 포스트 보기