주요 컨텐츠로 이동
Page 1
>
Engineering blog

새로운 "Statestore" 데이터 소스인 State Reader API를 소개합니다

(번역: Youngkyong Ko) Original Post 데이터브릭스 런타임 14.3에는 사용자가 구조화된 스트리밍 의 내부 상태 데이터에 액세스하고 분석할 수 있는 새로운 기능인 State Reader...
Engineering blog

PySpark - 2023년 한 해를 돌아보며

(번역: Youngkyong Ko) Original Post 2023년에 출시된 Apache Spark 3.4와 3.5에서는 PySpark의 성능, 유연성, 사용 편의성을 개선하는 데 중점을 두었습니다. 이 블로그 게시물에서는...
Engineering blog

대규모의 세분화된 시계열 예측을 위한 Facebook Prophet과 Apache Spark: Spark 3 업데이트

Translated by HaUn Kim - Original Blog Post 시계열 예측의 발전 덕분에 리테일러들은 더욱 신뢰할 수 있는 수요 예측을 만들어낼 수 있게 되었습니다...
Engineering blog

DataFrame 동일성 테스트 함수를 이용하여 PySpark 테스트 간소화

(번역: Youngkyong Ko) Original Post DataFrame 동일성 테스트 함수 는 PySpark 단위 테스트를 간소화하기 위해 Apache Spark 3.5와 Databricks Runtime 14.2에 도입되었습니다. 이...
Engineering blog

Apache Spark Structured Streaming에서 상태 유지(stateful) 파이프라인의 최신 성능 향상에 대한 심층 분석

(번역: Youngkyong Ko) Original Post 이 글은 상태 유지(stateful) 파이프라인의 최신 성능 개선에 대해 2부로 구성된 시리즈 중 두 번째 파트입니다. 이 글을...
Engineering blog

Apache Spark Structured Streaming에서 상태 유지 파이프라인(Stateful pipeline)의 성능 개선

(번역: Youngkyong Ko) Original Post 소개 Apache Spark™ Structured Streaming 은 확장성과 내결함성을 제공하는 인기 있는 오픈 소스 스트림 처리 플랫폼으로, Spark SQL...
Engineering blog

델타 레이크에 대한 스트리밍 데이터 수집 간소화

March 5, 2024 작성자: Sachin Patil in 엔지니어링 블로그
Translated by HaUn Kim - Original Blog Post 대부분의 비즈니스 의사결정은 시간에 민감하며, 여러 종류의 소스에서 실시간 데이터를 활용해야 합니다. 적절한 시기에 적절한...
Engineering blog

레이크하우스 모니터링: 데이터 품질과 AI를 위한 통합 솔루션

Introduction 데이터브릭스 레이크하우스 모니터링 을 사용하면 추가 툴이나 복잡한 과정 없이 데이터부터 기능, ML 모델에 이르는 모든 데이터 파이프라인을 모니터링할 수 있습니다. Unity...
Engineering blog

Apache Spark™ 3.5의 Arrow에 최적화된 Python UDF

(번역: Youngkyong Ko) Original Blog Post Apache Spark™에서 Python 사용자 정의 함수(UDF)는 가장 인기 있는 기능 중 하나입니다. 이 기능을 통해 사용자는 고유한...
Engineering blog

Spark Connect의 Python 종속성 관리

December 22, 2023 작성자: Hyukjin Kwon, Ruifeng Zheng in 엔지니어링 블로그
분산 컴퓨팅 환경에서 애플리케이션의 환경을 관리하는 것은 어려울 수 있습니다. 모든 노드가 코드를 실행하는 데 필요한 환경을 갖추고 있는지 확인하고 사용자 코드의 실제...