주요 컨텐츠로 이동

개인 정보가 안전하게 보호되는 협업을 위한 데이터브릭스 Clean Rooms 공개 프리뷰 제공

민감한 데이터를 보호하면서 클라우드와 산업 전반에서 데이터 + AI로 원활하게 작업하세요.
이 포스트 공유하기

외부 데이터와 혁신을 위한 AI가 폭발적으로 성장함에 따라, 모든 산업 분야의 기업들은 개인정보를 보호하면서도 효과적으로 파트너와 협력할 방법을 찾고 있습니다. 하지만 많은 기업들이 제한적인 협업 도구만을 가지고 있어, 민감한 데이터 공유에 대한 통제권을 포기하거나 데이터 사용 현황을 제대로 파악하지 못하는 경우가 많습니다. 이는 데이터 오용과 개인정보 유출의 큰 위험을 초래합니다.

이에 기업들은 개방적이고 유연하면서도 프라이버시가 보장되는 방식으로 협력하고 데이터에 AI를 적용할 수 있는 방법이 필요하며, Databricks Clean Rooms가 바로 이런 핵심 요구를 충족시킵니다. 올해 Data + AI Summit에서 발표했듯이, Clean Rooms는 현재 AWS와 Azure에서 공개 프리뷰 중입니다(프리뷰 신청은 여기서 가능합니다). Delta Sharing 기술을 바탕으로 한 Clean Rooms를 통해 기업들은 개인정보나 민감한 데이터를 노출하지 않으면서도 어떤 클라우드 환경에서든 고객 및 파트너와 쉽게 협력할 수 있습니다. clean room 참여자들은 기존 데이터를 안전하게 공유하고 결합할 수 있으며, ML을 기본 지원하는 Python 등 다양한 언어로 복잡한 작업을 수행할 수 있습니다. 이 과정에서 데이터는 원래 위치에 그대로 유지되며, 데이터 사용 위치와 방식에 대한 통제권도 항상 유지됩니다.

Databricks Clean Rooms는 데이터 기반 인사이트로 혁신을 가속화하려는 기업들을 위해 개발되었습니다. 최근 Data + AI Summit 세션인 "Collaboration with Databricks Clean Rooms and PETs"에서는 마스터카드의 사례를 통해, 협력 파트너, 데이터, 사용 목적에 따라 적절한 프라이버시 강화 기술(PETs)을 선택하여 민감한 데이터를 보호하는 방법을 자세히 소개했습니다.

모든 언어, 모든 워크로드 지원

Databricks Clean Rooms는 모든 종류의 분석 및 AI 워크로드를 처리할 수 있습니다. 테이블 형식의 데이터에 대한 SQL 쿼리만 허용하는 다른 솔루션들과 달리, Databricks Clean Rooms에서는 Python으로도 계산을 수행할 수 있습니다. 이러한 유연성 덕분에 간단한 데이터 결합부터 복잡한 ML/AI 작업까지 모두 가능합니다. Databricks Notebooks의 강력한 기능을 활용하여 SQL이나 Python으로 복잡한 계산과 ML/AI 작업을 수행할 수 있습니다. 또한 협력 파트너들은 비공개 라이브러리를 사용해 민감한 알고리즘이나 데이터 처리 로직을 숨길 수 있어, 지적 재산권도 안전하게 보호됩니다. 앞으로 Scala와 Java 지원도 곧 추가될 예정입니다.

 

모든 클라우드 지원, 데이터 복제 불필요

Databricks Clean Rooms는 지역, 클라우드, 플랫폼의 경계를 넘어선 협력을 위해 설계되었습니다. 예를 들어, AWS 사용자와 Azure 사용자가 Databricks Clean Rooms를 통해 함께 협업할 수 있습니다. 이러한 안전하고 개방적이며 유연한 협력은 Delta Sharing 기술로 구현됩니다. 원본 데이터의 개인정보를 보호하면서도 비정형 데이터와 AI 모델을 포함한 모든 데이터와 AI에 대해 협력할 수 있습니다.

곧 출시될 Delta Sharing의 새 기능인 Sharing for Lakehouse Federation을 통해 다양한 데이터 플랫폼 간 협력도 가능해질 예정입니다(프리뷰 신청은 여기서 가능합니다).

 

모든 규모, 모든 신뢰 수준 대응

우리는 대규모로 클린룸을 활용해야 한다는 기업들의 중요한 요구를 잘 알고 있습니다. 이에 Databricks Clean Rooms는 이러한 수요를 충족시키기 위한 강력한 협업 및 운영 기능을 제공합니다.

곧 API, SQL 명령, 내장된 Databricks Workflows 오케스트레이션 지원이 추가되어 모든 사용 사례에 대해 클린룸을 쉽게 자동화하고 관리할 수 있게 될 것입니다. 여러 협력 파트너들이 서로 다른 승인 모드를 사용하여 다양한 신뢰 수준으로 Databricks Clean Room에서 함께 작업할 수 있습니다. 또한 Databricks Notebooks나 Unity Catalog에서 Clean Rooms 결과물에 쉽게 접근할 수 있어, 후속 작업 과정에 원활하게 통합할 수 있습니다.

Databricks Clean Rooms의 작동 방식

Databricks Clean Rooms는 강력한 도구이지만, 설정과 시작은 매우 간단합니다.

먼저, 원하는 클라우드 제공업체와 지역을 선택하여 클린룸을 생성합니다. 클린룸은 당신과 협력 파트너가 현재 사용 중인 클라우드나 지역에 상관없이 어떤 클라우드나 지역에서도 만들 수 있습니다. 이렇게 하면 Databricks가 호스팅하는 개인정보 보호에 안전하고 격리된 환경이 만들어집니다. 클린룸이 생성되면 당신과 협력 파트너들은 Delta Sharing을 사용하여 비정형 데이터, 테이블, 볼륨, AI 모델 등 자신들의 데이터를 클린룸으로 가져올 수 있습니다. 클린룸 참여자들은 서로의 데이터를 직접 보거나 접근할 수 없습니다.

마지막으로, 분석을 수행하기 위해 상호 합의된 코드로 노트북을 만들어 클린룸에서 공유할 수 있습니다. 그러면 협력 파트너가 이 노트북 작업을 실행할 수 있으며, 이는 서버리스 컴퓨팅을 사용하여 완료됩니다. Databricks Clean Rooms를 사용하면 모든 협력 파트너가 노트북을 클린룸에 공유하고, 승인받은 후 클린룸 내에서 실행할 수 있습니다. 이러한 유연성 덕분에 개인정보를 안전하게 보호하면서 어떤 종류의 워크로드도 실행할 수 있습니다.

How Databricks Clean Rooms Works

일반적인 Clean Rooms 사용 사례

여러 산업 분야에서 다양한 클린룸 사용 사례가 등장하고 있습니다. 가장 일반적인 몇 가지를 살펴보겠습니다.

광고와 미디어

클린룸을 통해 광고주와 퍼블리셔는 사용자 개인정보를 침해하지 않으면서 캠페인 성과를 분석할 수 있습니다. 이 방식으로 광고주는 퍼블리셔의 데이터 프라이버시를 보호하면서도 여러 플랫폼에 걸친 캠페인 효과를 종합적으로 파악할 수 있습니다. 한 가지 사용 사례로 '유사 고객 모델링(lookalike modeling)'이 있는데, 이는 ML 모델을 사용하여 원본 데이터를 공유하지 않고도 다른 협력 파트너의 데이터셋에서 유사한 프로필을 찾는 방법입니다. 이 기술은 틈새 고객층 도달, 전환율 향상을 위한 타겟 고객 프로필 데이터 강화, 리타겟팅 실행, 기존 타겟팅 프로필 개선 등 다양한 시나리오에 유용하게 활용될 수 있습니다.

이 업계에서 전략적 파트너인 LiveRamp는 Databricks Clean Rooms 고객에게 고객 모델링 및 분석을 위한 ID 기반 데이터 인프라를 제공합니다.

“LiveRamp와 Databricks Clean Rooms는 마케터들에게 개인정보를 보호하면서도 놀라운 고객 경험을 만들어낼 수 있는 도구를 제공합니다. Databricks 고객들은 LiveRamp의 ID 기반 데이터 인프라를 활용하여 개인화 향상, 더 강력한 협업, 고객 모델링 및 분석의 정확도 증가를 실현할 수 있습니다. 이는 모든 마케팅 팀이 꿈꾸는 완벽한 조합입니다..”
— Mike Moreau, VP Operations, LiveRamp

유통 및 소비재(CPG)

유통업체와 제조업체는 clean rooms를 활용하여 트렌드를 파악하고 가격 전략을 최적화할 수 있습니다. 이러한 협력 분석은 더 정교한 광고 타겟팅을 가능케 하고 캠페인 최적화를 위한 귀중한 인사이트를 제공함으로써 유통업체의 미디어 네트워크 효과를 높입니다. 또 다른 일반적인 사용 사례로는 수요 예측 및 재고 관리를 위해 판매 데이터를 활용하는 것이 있습니다.

제조업

글로벌 제조업체들은 클린룸을 통해 전체 가치 사슬에 걸쳐 파트너들과 협력하여 데이터 인사이트를 얻을 수 있습니다. 예를 들어, 예측 유지보수로 운영 효율성을 높일 수 있습니다. 설치된 센서의 데이터, 데이터 파이프라인의 원시 데이터를 활용하고, 과거 데이터로 훈련된 ML 모델을 사용하여 고장이나 유지보수 시기를 예측하는 데 도움을 받을 수 있습니다.

헬스케어와 생명과학

클린룸은 환자 데이터에 대한 공동 연구를 위해 헬스케어와 생명과학 분야에서도 유용합니다. 서로 다른 기관의 연구자들은 환자의 개인정보를 보호하면서도 결합된 데이터셋을 분석하여 새로운 치료법을 개발하고 환자 치료 결과를 개선할 수 있습니다.

금융 서비스

클린룸은 금융 서비스의 고객 확인(Know Your Customer, KYC) 규정 준수에 획기적인 변화를 가져옵니다. 금융 기관들은 민감한 고객 정보를 노출하지 않으면서도 KYC 데이터를 안전하게 공유하고 분석하여 고객 온보딩을 가속화하고, 잠재적인 자금 세탁 활동을 식별하며, 전반적인 위험 관리를 개선할 수 있습니다. 또한 사기 탐지 와 예방을 위해 금융 기관과 제3자 분석 제공업체(예: 핀테크 기업, 사기 탐지 기업)가 협력하여 핵심 인사이트를 도출할 수 있습니다. 고객 인사이트 생성과 개인화는 또 다른 사용 사례로, 금융 기관과 제3자 분석 제공업체가 협력하여 맞춤형 금융 상품 및 서비스를 위한 고객 행동과 선호도를 이해하는 데 도움을 줄 수 있습니다.

Databricks Clean Rooms 시작하기

Databricks Clean Rooms는 개인정보가 안전하게 보호되는 협업을 지원하여 데이터 및 AI 이니셔티브를 실현할 수 있도록 도와줍니다. 공개 프리뷰가 출시되기 전에 데이터브릭스 클린룸에 대한 참여 의향서을 제출하여 참여하세요.

또한 최근 2024 Data + AI Summit의 클린룸 관련 세션을 시청하여 클린룸의 작동 방식과 데이터 기반 혁신을 가속화할 수 있는 방법에 대해 자세히 알아볼 수 있습니다: 

  • Collaboration with Databricks Clean Rooms and PETs 은 마스터카드의 고객 주도 세션입니다. 클린룸과 마스터카드는 최신 데이터 문제를 해결하기 위해 여러 당사자 간의 협업을 촉진합니다. 이 세션에서는 Mastercard가 사용하는 노트북을 통해, 협업자, 데이터, 사용 사례에 따라 자동으로 적용해야 하는 프라이버시 강화 기술(PETs)을 살펴보고, 최종 사용자 경험에 영향을 미치지 않으면서도 이를 어떻게 적용하는지 알아봅니다. 
  • Getting Started with Databricks Clean Rooms 는 공유 데이터 분석을 시작하고, 여러 플랫폼에서 데이터 작업, ML/AI 모델 학습, 개인정보 보호 정책 시행, 독점 라이브러리 통합, 비정형 데이터 분석, 클린룸 작업 감사 등과 같은 고급 사용 방법의 사례를 보여 줍니다.
  • Secure Data and AI Collaboration with Databricks Clean Rooms 에서는 데이터 클린룸 도입을 이끄는 거시적 트렌드와 데이터 클린룸의 일반적인 사용 사례를 다룹니다. 이 세션에서는 데모를 통해 마스터카드의 사용 사례도 중점적으로 다룹니다. 

 

(번역: Youngkyong Ko)  Original Post

Databricks 무료로 시작하기

관련 포스트

모든 플랫폼 블로그 포스트 보기