주요 컨텐츠로 이동

2023 Data + AI 서밋 행사가 끝난지도 벌써 일주일이 넘었습니다. 올해 서밋의 주제는 '제너레이션 AI'로, LLM, 레이크하우스 아키텍처, 그리고 데이터와 AI의 모든 최신 혁신을 탐구하는 내용들이 주를 이루었었는데요. 

이러한 최신 제너레이티브 AI의 혁신을 뒷받침하는 것은 델타 레이크, 스파크, 데이터브릭스 레이크하우스 플랫폼이 제공하는 최신 데이터 엔지니어링 스택입니다. 데이터브릭스 레이크하우스는 데이터 엔지니어가 배치 및 스트리밍 데이터 전반에 걸쳐 데이터 엔지니어링을 위한 통합 도구인 델타 라이브 테이블(Delta Live Tables) 및 데이터브릭스 워크플로우(Databricks Workflows)와 같은 솔루션을 통해 정교한 데이터 파이프라인을 구축하고 오케스트레이션하는 과제를 해결할 수 있도록 고급 기능을 제공합니다.

이 블로그 게시물에서는 이번 주의 주요 데이터 엔지니어링 및 데이터 스트리밍 하이라이트와 발표 내용을 요약해 드립니다. 데이터 브릭스 레이크하우스 플랫폼에서 데이터 엔지니어링 및 데이터 스트리밍의 미래를 만들어갈 발전된 기능에 대해 자세히 알아보도록 하겠습니다.

 

델타 라이브 테이블과 스파크 스트리밍을 사용한 데이터 스트리밍 처리

데이터브릭스 레이크하우스 플랫폼은 데이터 스트리밍 을 획기적으로 간소화하여 하나의 플랫폼에서 실시간 분석, 머신 러닝 및 애플리케이션을 제공합니다. 가장 인기 있는 오픈 소스 스트리밍 엔진인 Spark Structured Streaming을 기반으로 구축된 델타 라이브 테이블과 같은 도구는 데이터 엔지니어가 모든 실시간 사용 사례에 대한 스트리밍 데이터 파이프라인을 구축할 수 있도록 지원합니다.

한 주 동안 유니티 블로그에 포스팅한 주요 데이터 스트리밍 개발 소식 몇 가지를 소개합니다::

  • 델타 라이브 테이블 <> Unity 카탈로그 통합: 이제 Unity 카탈로그가 델타 라이브 테이블 파이프라인을 지원합니다! 이제 모든 데이터 팀은 델타 라이브 테이블에서 생성된 데이터 자산에 대해 세분화된 데이터 거버넌스 정책을 정의하고 실행할 수 있습니다. 여기에서 자세히 알아보세요.
  • 데이터브릭스 SQL Materialized Views 와 스트리밍 테이블: 최고의 데이터 웨어하우스는 증분 수집 및 계산을 통해 데이터 엔지니어링의 이점을 최대한 활용하며, 설정이 간편하고 비즈니스에 새로운 데이터를 제공하는 인프라가 필요 없는 데이터 파이프라인을 구현합니다. 여기에서 자세히 읽어보세요.
  • 프로젝트 라이트스피드 1주년: 작년에 우리는 Apache Spark로 더 빠르고 간단한 스트림 처리를 위한 이니셔티브인 Project Lightspeed를 발표했습니다. 올해에는 1초 미만의 지연 시간과 같은 최근 발표를 포함해 지난 1년간의 프로젝트 라이트스피드의 혁신과 진전을 되돌아보았습니다. 자세한 내용은 여기에서 확인할 수 있습니다.

위의 발표에 대한 자세한 내용은 이 두 세션(온디맨드로 제공)에서 확인하세요:

Databricks Workflows 를 이용한 작업 오케스트레이션

데이터브릭스 워크플로우는 데이터브릭스 레이크하우스와 완전히 통합된 통합 오케스트레이션 도구로, 사용자에게 간단한 워크플로 작성 환경, 실행 가능한 인사이트를 통한 완벽한 가시성과, 매일 수천 명의 데이터브릭스 고객이 프로덕션 워크로드를 오케스트레이션하는 데 신뢰할 수 있는 안정성을 제공합니다.

이번 서밋에서 워크플로 제품 팀은 올해년도 로드맵을 살짝 엿볼 수 있는 기회를 제공했습니다. 로드맵에서 앞으로 몇 달 동안 주목해야 할 몇 가지 흥미로운 항목은 다음과 같습니다::

  • 서버리스 컴퓨팅 - 데이터브릭스 워크플로우와 델타 라이브 테이블 모두에서 데이터 엔지니어를 위한 클러스터 구성을 추상화하고 ETL 및 오케스트레이션을 더욱 단순하고 안정적이며 확장 가능하고 비용 효율적으로 만들 것입니다.
  • 워크플로우를 위한 향상된 제어 흐름 - 사용자가 완전히 매개변수화되고 동적으로 실행되며 모듈식 DAG로 정의된 보다 정교한 워크플로우를 생성할 수 있어 효율성이 향상되고 디버깅이 쉬워집니다.
  • 팀 간 오케스트레이션 - 데이터가 업데이트되거나 다른 팀의 워크플로우가 성공적으로 완료되면 워크플로우를 트리거하는 등 조직 경계를 넘어 복잡한 데이터 종속성을 관리할 수 있는 기능입니다.
  • 간편한 CI/CD, 버전 관리 및 코드로서의 워크플로 - 완전한 git 통합을 통해 새로운 엔드투엔드 CI/CD 플로우를 도입하고 워크플로를 Python으로 표현할 수 있는 기능을 제공합니다.

위의 내용에 대해 자세히 알아보려면 . What's new in Databricks Workflows? 세션을 확인하세요.

 

고객의 모멘텀

데이터 엔지니어링 및 데이터 스트리밍 워크로드를 실행하기 위한 최적의 장소로 데이터브릭스 레이크하우스 플랫폼을 선택하는 조직이 점점 더 많아지고 있습니다. 예를 들어, 스트리밍 작업 실행은 매년 150% 이상 성장하고 있으며 최근에는 주당 스트리밍 작업 수가 1,000만 건을 넘어섰습니다.

Weekly Databricks Streaming Job Runs (Millions)
Weekly Databricks Streaming Job Runs (Millions)

올해 데이터 + AI 서밋에는 천 개가 넘는 강연이 제출되었으며, 그중에는 데이터브릭스 고객도 다수 포함되어 있습니다. 고객들이 데이터 엔지니어링 및 데이터 스트리밍을 통해 수행한 놀라운 작업 중 일부를 소개하게 되어 매우 기쁘게 생각하며, 여기에서 세션의 일부 샘플을 확인해 보시기 바랍니다:

  • Akamai - Taking Your Cloud Vendor to the Next Level: Solving Complex Challenges with Azure Databricks
  • AT&T - Building and Managing a Data Platform for a Delta Lake that Exceeds 13 Petabytes and Has Thousands of Users
  • Block - Change Data Capture with Delta Live Tables (Introduction to Data Streaming on the Lakehouse)
  • Corning - Data Engnieering with Databricks Workflows (Introduction to Data Engineering on the Lakehouse)
  • Discovery+ - Deploying the Lakehouse to Improve the Viewer Experience
  • Grammarly - Deep Dive into Grammarly's Data Platform
  • Honeywell - Using Cisco Spaces Firehose API as a Stream of Data for Real-Time Occupancy Modelling
  • Lyft - Real-Time ML in Marketplace
  • T-Mobile - The Value of the Lakehouse: Articulating the Benefit of a Modern Data Platform

올해 서밋에 참석하지 못하셨다구요?

더 이상 걱정하지 마세요! 모든 데이터 엔지니어링 및 데이터 스트리밍 세션은 여기에서 확인할 수 있습니다(세션은 컨퍼런스가 끝난 직후에 온디맨드 방식으로 제공됩니다). 데이터브릭스 레이크하우스 플랫폼을 처음 접하는 분들에게는 이 두 가지 소개 세션이 좋은 출발점이 될 것입니다:

내년도 Data + AI Summit 2024에서 또 만나 뵈어요!

Databricks 무료로 시작하기

관련 포스트

모든 플랫폼 블로그 포스트 보기