주요 컨텐츠로 이동

데이터 공유(Data Sharing)

Databricks 무료로 시작하기

데이터 공유란 무엇인가요?

Data sharing은 하나 또는 여러 명의 고객에게 같은 데이터를 제공할 수 있는 기능입니다. 요즘 들어서는 어느 회사에서나 지속적으로 늘어나는 방대한 데이터 자체가 전략적 자산이 되었습니다. 조직 안팎으로 데이터를 공유하는 것은 새로운 사업 기회를 발견할 수 있도록 도와주는 기술이기도 합니다. 외부 소스에서 데이터를 사용하는 것은 물론이고, 데이터를 공유하면 ​​파트너와 협업할 수 있으며, 새로운 파트너십을 형성하고 데이터를 통한 수익 창출로 새로운 수익원을 발굴할 수 있습니다.

기존의 데이터 공유 기술

첫째, SFTP(SSH File Transfer Protocol)나 클라우드 개체 스토리지처럼 자체 개발한 솔루션을 구현하는 기술이 있습니다. 그러나 SFTP는 클라이언트가 많을 때는 제대로 확장되지 못하고 FTP 서버에 오프로드된 파일만 제공합니다. 데이터 공유를 위한 사전 서명된 개체 스토어 URL은 개체 스토어 클라우드 서비스의 대역폭까지 확장되지만, 특정 클라우드 공급업체에만 사용할 수 있습니다.

상업/폐쇄적 소스 데이터 공유 서비스

둘째, Oracle, AWS Redshift, Snowflake와 같은 공급업체 제품에서 제공하는 데이터 공유 솔루션이 있습니다. 이런 솔루션은 제품 내에서 편리하게 사용할 수 있고 파일 대신 테이블을 공유하지만, 개방적이지 않아서 다른 플랫폼과 데이터를 공유할 수 없습니다.

최신 오픈 소스 데이터 공유 솔루션

오픈 소스 기반 솔루션은 상업적 솔루션에 종속될 필요가 없으며, 커뮤니티에서 인기 있는 오픈 소스 데이터 처리 프레임워크와의 통합을 개발하는 등 더 많은 장점이 있습니다. 또한 오픈 프로토콜을 사용하면 BI 도구와 같은 상업적 클라이언트를 간편하게 통합할 수 있습니다.

델타 공유(Delta Sharing)

델타 공유는 안전한 데이터 공유를 위한 업계 최초의 오픈 프로토콜로, 사용하는 컴퓨팅 플랫폼 종류에 구애받지 않고 다른 기관과 간단하게 데이터를 공유할 수 있게 해줍니다.

  • 직접 라이브 데이터 공유 — 다른 시스템에 복사할 필요 없이 Delta Lake에 기존 라이브 데이터를 쉽게 공유할 수 있습니다.
  • 다양한 클라이언트 지원 — 데이터 수신자는 먼저 특정 컴퓨팅 플랫폼을 배포하지 않고도 Pandas, Apache Spark™, Rust 및 기타 시스템에서 Delta Shares에 직접 연결할 수 있습니다. 데이터를 사용자에게 제공하는 마찰이 줄어듭니다.
  • 보안 및 거버넌스 — ​​Delta Sharing를 사용하면 공유된 데이터 세트를 쉽게 관리, 추적하고 감사가 가능합니다.
  • 확장성 — S3, ADLS, GCS 등의 클라우드 스토리지 시스템을 활용하여 대규모 데이터 세트를 안정적이고 효율적으로 공유합니다.

Databricks 기반 Delta Sharing

Databricks는 Unity Catalog에서 Delta Sharing과 기본으로 통합되며, 조직 내부와 전반에서 데이터를 공유하기 위한 간소화된 환경을 제공합니다. 관리자는 새로운 CREATE SHARE SQL 명령이나 REST API를 사용하여 공유를 관리하고, 모든 액세스를 중앙에서 감사합니다. 그러면 데이터 수신자는 플랫폼이나 클라우드와 관계없이 어디서나 데이터를 사용할 수 있습니다.

 

Databricks 기반 Delta Sharing

 

Delta Sharing: 개방형 에코시스템

오픈 소스 및 상업 파트너로 구성된 Delta Sharing 에코시스템은 매일 같이 성장하고 있습니다. 어디서나, 누구와든 쉽게 데이터를 공유해 보세요.

 

Delta Sharing:  에코시스템

 

Databricks에서 데이터 공유에 대해 자세히 알아보기

Databricks Delta Sharing 대기 목록에 등록하면 미리 보기에 액세스하고 업데이트를 확인하실 수 있습니다.

추가 자료

용어집으로 돌아가기