디지털 네이티브 회사들은 AI가 혁신을 주도하는데 있어 중요한 역할을 인식하고 있지만, 여전히 데이터를 하류 사용, 예를 들어 머신 러닝 개발 및 고급 분석을 위해 즉시 사용할 수 있게 하는데 어려움을 겪고 있습니다. 이러한 조직들에게는 SQL 서버에 의존하는 비즈니스 팀을 지원하고, 데이터 엔지니어링 리소스를 유지하고, 사용자 정의 커넥터를 유지하고, 분석을 위한 데이터를 준비하고, 모델 개발을 위해 데이터 팀에게 사용할 수 있도록 보장하는 것이 필요합니다. 자주, 이 데이터는 데이터 기반의 결정을 내리기 전에 추가적인 소스로부터 풍부하게 만들어지고 변형되어야 합니다.
이러한 프로세스를 유지하는 것은 빠르게 복잡하고 취약해져, 혁신을 늦추게 됩니다. 그래서 Databricks는 인기 있는 데이터베이스, 기업용 애플리케이션, 파일 소스를 위한 내장 데이터 커넥터가 포함된 Lakeflow Connect를 개발했습니다. 이 커넥터들은 효율적인 종단 간, 증분적인 수집을 제공하며, 유연하고 설정하기 쉽고, 통합된 관리, 관찰 가능성, 그리고 오케스트레이션을 위해 Databricks 데이터 인텔리전스 플랫폼과 완전히 통합되어 있습니다. 새로운 Lakeflow SQL Server 커넥터는 온프레미스와 클라우드 데이터베이스 모두에 대한 강력한 통합을 제공하는 첫 번째 데이터베이스 커넥터로, Databricks 내부에서 데이터 인사이트를 도출하는 데 도움이 됩니다.
이 블로그에서는 Lakeflow Connect를 SQL Server에 언제 사용해야 하는지에 대한 주요 고려사항을 검토하고 Azure SQL Server 인스턴스에서 데이터를 복제하는 방법을 설명하겠습니다. 그런 다음, 특정 사용 사례, 모범 사례, 그리고 시작하는 방법에 대해 검토하겠습니다.
아래는 SQL Server 커넥터를 사용할지 결정하는 데 도움이 되는 주요 고려 사항입니다.
Lakeflow Connect는 다양한 SQL Server 데이터베이스 버전을 지원합니다. 이에는 Microsoft Azure SQL Database, Amazon RDS for SQL Server, Azure VMs 및 Amazon EC2에서 실행되는 Microsoft SQL Server, 그리고 Azure ExpressRoute 또는 AWS Direct Connect를 통해 접근 가능한 온프레미스 SQL Server가 포함됩니다.
Lakeflow Connect는 내부적으로 Serverless 파이프라인에서 실행되므로, 파이프라인 관찰, 이벤트 로그 알림, 레이크하우스 모니터링과 같은 내장 기능을 활용할 수 있습니다. 만약 Serverless가 귀하의 지역에서 지원되지 않는다면, Databricks 계정 팀과 협력하여 그 지역에서의 개발 또는 배포를 우선 순위로 요청하도록 도와주세요.
Lakeflow Connect는 Data Intelligence Platform 위에 구축되어 있으며, 이는 Unity Catalog (UC)와의 원활한 통합을 제공하여 새로운 SQL Server 소스에 대해 통합된 거버넌스를 위해 기존 권한 및 접근 제어를 재사용할 수 있습니다. Databricks 테이블과 뷰가 Hive에 있다면, 이러한 기능들을 활용하기 위해 UC로 업그레이드하는 것을 권장합니다 (AWS | Azure | GCP)!
Lakeflow Connect는 효율적인 증분식 수집을 지원하기 위해 Microsoft 변경 추적 (CT) 또는 Microsoft Change Data Capture (CDC) 가 활성화된 SQL 서버와 통합될 수 있습니다.
CDC는 삽입, 업데이트, 삭제 작업에 대한 역사적 변경 정보를 제공하며, 실제 데이터가 변경되었을 때에 대한 정보도 제공합니다. 변경 추적은 실제 데이터 변경 사항을 캡처하지 않고 테이블에서 어떤 행이 수정되었는지 식별합니다. CDC와 SQL 서버를 함께 사용하는 장점에 대해 더 알아보세요.
Databricks는 소스 데이터베이스에 부하를 최소화하기 위해 기본 키가 있는 모든 테이블에 대해 변경 추적을 사용하는 것을 권장합니다. 기본 키가 없는 소스 테이블의 경우 CDC를 사용하십시오. 언제 사용해야 하는지에 대해 더 알아보려면 여기를 클릭하세요.
SQL 서버 커넥터는 최초의 데이터 수집 파이프라인 실행 시에 역사적 데이터의 초기 로드를 캡처합니다. 그런 다음 커넥터는 마지막 실행 이후 데이터에 이루어진 변경 사항만 추적하고 수집하여 SQL 서버의 CT/CDC 기능을 활용하여 작업을 간소화하고 효율성을 향상시킵니다.
Lakeflow Connect를 사용하여 SQL 서버와 연결이 설정되면:
