우리는 기쁜 마음으로 물리화 뷰와 스트리밍 테이블의 공유가 이제 Public Preview에서 사용 가능하다는 것을 발표합니다. 스트리밍 테이블(STs)은 지속적으로 스트리밍 데이터를 수집하여 실시간 데이터 파이프라인에 이상적이며, 물리화 뷰(MVs)는 SQL 분석 및 BI 대시보드의 성능을 향상시키기 위해 쿼리 결과를 미리 계산하고 저장합니다.
이 블로그 게시물에서는 이 두 가지 유형의 자산을 공유함으로써 데이터 제공자가 성능을 향상시키고, 비용을 줄이면서 신선하고 관련성 있는 데이터를 데이터 수신자에게 제공하는 방법을 살펴볼 것입니다.
머티리얼라이즈드 뷰 (MVs)와 스트리밍 테이블 (STs) 모두 증분 업데이트를 지원하여 데이터를 최신 상태로 유지하고 쿼리를 효율적으로 만듭니다.
스트리밍 테이블은 실시간 데이터를 수집하는 데 사용되며, 종종 원시 데이터가 처음으로 도착하는 "브론즈" 계층을 형성합니다. 로그, 이벤트 또는 센서 데이터와 같은 소스에 유용합니다.
물리화 뷰는 데이터가 정제되거나 집계되는 "실버" 또는 "골드" 계층에 더 적합합니다. 그들은 전체 기본 테이블을 스캔하는 대신 결과를 미리 계산함으로써 쿼리 시간을 줄여줍니다.
두 가지 모두 함께 사용될 수 있습니다. 예를 들어, 스트리밍 테이블은 센서 읽기를 처리하고, 머티리얼라이즈드 뷰는 이상 패턴 감지와 같은 연속 계산을 실행합니다.
스트리밍 테이블과 머티리얼라이즈드 뷰에 대해 더 알아보려면 이 블로그 를 읽어보세요.
스트리밍 테이블(STs)을 공유하면 데이터 수신자가 파이프라인을 중복하거나 데이터를 복제하지 않고도 실시간, 최신 데이터에 액세스할 수 있습니다. 소매 회사가 실시간 배송 최적화를 지원하기 위해 물류 파트너와 실시간 판매 데이터를 공유해야 하는 시나리오를 생각해 보세요.
물류 파트너는 자신의 Databricks 작업 공간에서 공유된 스트리밍 테이블에 액세스하기 위한 자격 증명 및 구성 세부 정보를 제공받습니다.
물류 파트너는 실시간 판매 데이터를 사용하여 배송 핫스팟을 예측하고, 차량 경로를 실시간으로 업데이트하며, 고요구 지역에서 패키지 배송 속도를 향상시킵니다.
스트리밍 테이블을 공유함으로써 물류 파트너는 중복된 ETL 파이프라인 구축을 피하고 복잡성과 인프라 비용을 낮춥니다. Delta Sharing은 플랫폼 간 액세스를 가능하게 하므로, 데이터 소비자는 Databricks에 있을 필요가 없습니다. 스트리밍 테이블은 클라우드, 지역, 플랫폼 간에 공유될 수 있습니다.
데이터 제공자는 Unity Catalog를 통해 관리되는 세밀한 권한을 사용하여 액세스에 대한 완전한 제어권을 유지합니다.
이 데모를 보고 데이터 제공자가 Databricks 사용자와 다른 플랫폼 모두에게 ST를 어떻게 공유할 수 있는지 확인하세요.
원시 기본 테이블 대신 머티리얼라이즈드 뷰만 공유하면 데이터 보안성과 관련성이 향상됩니다. 이는 기본 데이터에서 민감하거나 불필요한 필드가 숨겨져 있으면서도, 소비자에게 필요한 특정 인사이트를 제공한다는 것을 보장합니다. 이 방법은 소비자가 집계된 결과나 필터링된 결과에 관심이 있고 전체 원본 데이터에 대한 액세스가 필요하지 않을 때 특히 유용합니다.
예를 들어, 금융 시장 통찰력을 수익화하는 데이터 제공자를 고려해 보세요. 그들은 주식 시장 거래와 같은 원시 거래를 처리하고, 산업 부문의 일일 성과 등 가치 있는 집계된 통찰력을 생성합니다. 헤지펀드(고객)는 기술주의 재무 성과에 대한 일일 통찰력이 필요하지만, 대량의 원시 거래 데이터를 처리하고 싶지 않습니다.
데이터 제공자는 원시 거래 데이터를 공유하는 대신에, 헤지펀드에게 사용하고 해석하기 쉬운 사전 계산된 인사이트를 제공하는 정제된 데이터 세트를 만들 수 있습니다.
데이터 제공자는 각 고객에 대한 복잡한 사용자 정의 파이프라인을 관리하는 것을 피했습니다. MV를 생성하고 공유함으로써 동일한 데이터의 여러 버전을 유지할 필요가 없어집니다. 기본 테이블에서 필요하지 않은 세부 정보는 수신자의 데이터 요구를 충족하면서도 보호됩니다. 데이터 수신자는 정제된 데이터에 즉시 접근하고 데이터 준비보다는 분석에 자원을 사용합니다.
이 데모를 보고 데이터 제공자가 Databricks 사용자와 다른 플랫폼 모두에게 MV를 어떻게 공유할 수 있는지 확인하세요.
Delta Sharing은 또한 플랫폼 간 뷰 공유를 지원하며, 이를 통해 데이터 제공자는 Delta Sharing 프로토콜을 사용하여 뷰를 공유할 수 있습니다. 머티리얼라이즈드 뷰는 사전 집계된 결과를 공유하고 쿼리 성능을 향상시키는 데 유용하지만, 뷰가 더 적합한 경우도 있습니다. 델타 공유는 플랫폼, 클라우드, 지역 간에 뷰를 공유하는 것도 지원합니다. 머티리얼라이즈드 뷰와 달리, 뷰는 사전 계산되지 않습니다 - 쿼리 시간에 평가됩니다. 이는 가장 최신의 데이터에 실시간으로 액세스해야 하거나 다른 사용자가 실시간으로 자신의 필터를 적용해야 하는 시나리오에 적합합니다. 뷰는 데이터의 신선도나 쿼리별 맞춤화가 성능 최적화보다 중요할 때 더 많은 유연성을 제공합니다.
Kaluza는 에너지 공급업체가 운영을 변혁하고, 고객 경험을 재창조하고, 에너지를 최적화하여 더 싼, 더 녹색의 전기 그리드로의 전환을 가속화하는 고급 에너지 소프트웨어 플랫폼입니다.
에너지 제공자는 전기차, 히트 펌프, 태양광 패널 및 배터리를 포함한 연결된 장치의 수가 증가함에 따라 데이터를 관리하는 데 있어 복잡성이 증가하고 있으며, 에너지 시스템이 더욱 변동성이 있고 고객의 요구가 복잡해지고 있습니다. 전통적인 아키텍처는 실시간 인사이트와 대규모에서의 운영 효율성을 제공하는 데 어려움을 겪습니다.
MV/ST 공유는 Kaluza 플랫폼이 엔지니어링 복잡성을 줄이면서 운영할 수 있게 하는 즉시 사용 가능한 솔루션을 가능하게 합니다. 머티리얼라이즈드 뷰를 출력하는 파이프라인을 통해 칼루자는 파트너가 모델링된 데이터와 보고서에 접근하여 실행 가능한 통찰력을 얻을 수 있게 합니다. 이 접근 방식은 협업을 간소화하고, 통합 오버헤드를 줄이며, 새로운 고객 제안을 시장에 빠르게 전달하는 데 도움이 됩니다.
“에너지 데이터의 규모와 복잡성은 업계 간 협력과 지식 공유를 요구합니다. Delta Sharing 머티리얼라이즈드 뷰는 에너지 공급자와의 원활한 통합을 촉진하며, 그리드 탈탄소화를 지원하고 시스템 이해관계자와 고객 모두에게 가치를 제공합니다.”— Thomas Millross, 데이터 엔지니어링 매니저, Kaluza
결론적으로, 스트리밍 테이블과 머티리얼라이즈드 뷰를 공유하면 신선하고 실시간의 통찰력을 제공하는 것이 더 쉬워지며, 비용과 복잡성을 줄일 수 있습니다. 실시간 데이터 스트림을 공유하든 미리 계산된 결과를 공유하든, MV/ST 공유는 더 빠른 결정을 내리는 데 중점을 두는 데 도움이 됩니다. MV/ST 공유는 이제 Public Preview에서 사용할 수 있습니다. 한번 사용해 보세요.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)