주요 컨텐츠로 이동
Page 1
>

노트북으로 간편하게 DLT 파이프라인 개발하기

역사상 가장 큰 규모의 Data + AI Summit에서 우리는 데이터 엔지니어링을 위한 통합 지능형 솔루션인 Databricks LakeFlow 를 소개했습니다. Delta Live Tables(DLT)와 Workflows를...

데이터브릭스 LakeFlow 소개: 데이터 엔지니어링을 위한 통합 지능형 솔루션

오늘, 프로덕션 데이터 파이프라인 구축과 운영에 필요한 모든 것이 포함된 새로운 솔루션 Databricks LakeFlow를 발표하게 되어 기쁩니다. 이 솔루션에는 SQL Server와 같은 데이터베이스와...

Delta Lake와 Apache Spark의 오픈 Variant 데이터 타입 소개

반정형(semi-strutured) 데이터를 위한 새로운 Variant 데이터 타입을 발표하게 되어 기쁘게 생각합니다. Variant 타입은 고도로 중첩되고 진화하는 스키마를 지원할 수 있는 유연성을 유지하면서 이러한...

데이터 엔지니어를 위한 Databricks Assistant 활용 팁과 요령

생성형 AI 혁명은 팀의 업무 방식을 변화시키고 있으며, Databricks Assistant는 이러한 발전의 이점을 최대한 활용합니다. 대화형 인터페이스를 통해 데이터를 쿼리할 수 있으므로 Databricks...

새로운 "Statestore" 데이터 소스인 State Reader API를 소개합니다

(번역: Youngkyong Ko) Original Post 데이터브릭스 런타임 14.3에는 사용자가 구조화된 스트리밍 의 내부 상태 데이터에 액세스하고 분석할 수 있는 새로운 기능인 State Reader...

PySpark - 2023년 한 해를 돌아보며

(번역: Youngkyong Ko) Original Post 2023년에 출시된 Apache Spark 3.4와 3.5에서는 PySpark의 성능, 유연성, 사용 편의성을 개선하는 데 중점을 두었습니다. 이 블로그 게시물에서는...

대규모의 세분화된 시계열 예측을 위한 Facebook Prophet과 Apache Spark: Spark 3 업데이트

Translated by HaUn Kim - Original Blog Post 시계열 예측의 발전 덕분에 리테일러들은 더욱 신뢰할 수 있는 수요 예측을 만들어낼 수 있게 되었습니다...

DataFrame 동일성 테스트 함수를 이용하여 PySpark 테스트 간소화

(번역: Youngkyong Ko) Original Post DataFrame 동일성 테스트 함수 는 PySpark 단위 테스트를 간소화하기 위해 Apache Spark 3.5와 Databricks Runtime 14.2에 도입되었습니다. 이...

Apache Spark Structured Streaming에서 상태 유지(stateful) 파이프라인의 최신 성능 향상에 대한 심층 분석

(번역: Youngkyong Ko) Original Post 이 글은 상태 유지(stateful) 파이프라인의 최신 성능 개선에 대해 2부로 구성된 시리즈 중 두 번째 파트입니다. 이 글을...

Apache Spark Structured Streaming에서 상태 유지 파이프라인(Stateful pipeline)의 성능 개선

(번역: Youngkyong Ko) Original Post 소개 Apache Spark™ Structured Streaming 은 확장성과 내결함성을 제공하는 인기 있는 오픈 소스 스트림 처리 플랫폼으로, Spark SQL...