주요 컨텐츠로 이동
<
Page 2

델타 레이크에 대한 스트리밍 데이터 수집 간소화

March 4, 2024 작성자: Sachin Patil in
Translated by HaUn Kim - Original Blog Post 대부분의 비즈니스 의사결정은 시간에 민감하며, 여러 종류의 소스에서 실시간 데이터를 활용해야 합니다. 적절한 시기에 적절한...

레이크하우스 모니터링: 데이터 품질과 AI를 위한 통합 솔루션

Introduction 데이터브릭스 레이크하우스 모니터링 을 사용하면 추가 툴이나 복잡한 과정 없이 데이터부터 기능, ML 모델에 이르는 모든 데이터 파이프라인을 모니터링할 수 있습니다. Unity...

Apache Spark™ 3.5의 Arrow에 최적화된 Python UDF

(번역: Youngkyong Ko) Original Blog Post Apache Spark™에서 Python 사용자 정의 함수(UDF)는 가장 인기 있는 기능 중 하나입니다. 이 기능을 통해 사용자는 고유한...

Spark Connect의 Python 종속성 관리

December 22, 2023 작성자: Hyukjin Kwon, Ruifeng Zheng in
분산 컴퓨팅 환경에서 애플리케이션의 환경을 관리하는 것은 어려울 수 있습니다. 모든 노드가 코드를 실행하는 데 필요한 환경을 갖추고 있는지 확인하고 사용자 코드의 실제...

SQL 함수의 명명된 인수(Named Arguments)

(번역: Youngkyong Ko) Original Blog Post 오늘은 SQL 함수에 명명된 인수(named arguments)를 사용할 수 있는 새로운 기능을 소개합니다. 이 기능을 사용하면 보다 유연한...

Apache Spark ❤️ Apache DataSketches: Sketch 기반의 새로운 Approximate Distinct Counting

(번역: Youngkyong Ko) Original Blog Post 소개 이 블로그에서는 고유 값 계산, 스케치 병합, 고유 개수 추정을 정확하고 효율적으로 수행할 수 있도록 HyperLogLog...

구조화된 스트리밍에서 복수 상태 저장 연산자 사용하기

August 10, 2023 작성자: Angela Chu, Jungtaek Lim in
데이터 엔지니어링의 세계에는 ETL이 탄생할 때부터 사용되어 온 작업이 있습니다. 필터링과 조인(Join), 집계를 거쳐 마지막으로 결과를 저장하는 작업입니다. 이러한 데이터 작업은 오랜 시간동안...

Delta Lake의 변경 데이터 피드로 CDC를 간소화하는 방법

Databricks에서 이 노트북을 사용해 보세요 변경 데이터 캡처(CDC) 는 많은 고객이 Databricks에서 구현하는 사용 사례이며, 이 주제에 대한 이전 심층 분석 은 여기에서...