주요 컨텐츠로 이동

데이터 엔지니어링

분석 및 AI를 위한 프로덕션 지원 데이터 파이프라인

Marketecture

Databricks Data Intelligence Platform에서 배치 및 스트리밍 데이터를 간편하게 수집하고 변환할 수 있습니다. Databricks는 대규모 인프라를 자동으로 관리하고 통합 거버넌스를 제공하는 동시에 안정적인 프로덕션 워크플로를 오케스트레이션합니다. 데이터와 파이프라인을 이해하는 내장된 AI 기반 인텔리전스 엔진으로 팀의 생산성을 높여 혁신을 가속화하세요.

"다양한 시스템에서 발생하는 방대한 양의 정형 및 비정형 데이터를 수집하고 표준화한 다음 콜센터, 매장, 온라인의 직원에게 알림과 권장 사항을 제공하는 ML 모델을 구축할 수 있습니다."

— Kate Hopkins, AT&T 부사장
AT&T logo

관련 제품

product icon 1

신뢰할 수 있는 파이프라인의 신뢰할 수 있는 데이터

내장된 데이터 품질 검증과 입증된 플랫폼의 신뢰성 덕분에 데이터 팀은 다운스트림 사용 사례에 적합한 정확하고 완전하며 최신 상태의 데이터를 확보할 수 있게 되었습니다.

product icon

비용 대비 성능 최적화

데이터 인텔리전스를 갖춘 서버리스 레이크하우스 아키텍처는 파이프라인을 구축하고 실행하는 데 따른 복잡한 작업을 자동화하므로 최적화할 때 추측하거나 수작업을 수행할 필요가 없습니다.

Icon Graphic

데이터 액세스 민주화

데이터 실무자가 자신의 기술 숙련도, 선호하는 인터페이스, 미세 조정의 필요성에 따라 데이터를 수집, 변환, 조율하는 배치 또는 스트리밍 파이프라인을 모두 통합 플랫폼에서 관리할 수 있도록 설계되었습니다.

product icon

Data Intelligence Platform 기반 구축

Data Intelligence Platform은 신뢰할 수 있는 데이터 자산을 구축 및 공유하는 데 가장 적절한 기반을 제공합니다. 이러한 데이터 자산은 중앙에서 관리되고 안정적이면서도 매우 빠른 속도를 자랑합니다.

DLT flow

관리형 데이터 파이프라인

데이터를 수집했으면 분석과 AI에 사용할 수 있도록 변환해야 합니다. Databricks는 Delta Live Tables(DLT)로 데이터 엔지니어, 데이터 사이언티스트, 애널리스트에게 강력한 데이터 파이프라인 기능을 제공합니다. DLT는 간단한 선언적 방식으로 배치 또는 스트리밍 데이터를 위한 데이터 파이프라인을 구축하는 최초의 프레임워크이며, 인프라 관리나 작업 오케스트레이션, 오류 처리, 복구와 같은 운영 복잡성과 성능 최적화를 자동화합니다. DLT를 사용하는 엔지니어는 데이터를 코드로 처리할 수 있고, 테스트, 모니터링 및 문서화 등의 소프트웨어 엔지니어링 모범 사례를 적용하여 대규모로 안정적인 파이프라인을 배포할 수 있습니다.

"이제 DLT를 통해 팀은 매일 함께 협력하여 파이프라인을 각자의 스토리와 워크로드로 나누며 훌륭하게 협업하고 있습니다."

— Chris Inkpen 박사, 글로벌 솔루션 아키텍트, Honeywell Energy & Environmental Solutions

honeywell logo

workflow diagram

통합 워크플로 오케스트레이션

Databricks Workflows는 Data Intelligence Platform에서 데이터 및 AI를 위한 간단하고 안정적인 오케스트레이션 솔루션을 제공합니다. Databricks Workflows를 사용하면 다단계 워크플로를 정의하여 ETL 파이프라인, ML 교육 워크플로 등을 구현할 수 있습니다. 이는 향상된 제어 흐름 기능을 제공하고 다양한 작업 유형과 트리거 옵션을 지원합니다. 플랫폼 네이티브 오케스트레이터인 Databricks Workflows는 워크플로 실행을 모니터링하고 시각화하는 고급 관측 기능과 문제 발생 시 알림 기능도 제공합니다. 서버리스 컴퓨팅 옵션을 사용하면 지능형 확장 기능을 활용하고 작업을 효율적으로 실행할 수 있습니다.

"Databricks Workflows을 사용하면 기술 설치 공간이 줄어들어 항상 더 빠르고 쉽게 배포할 수 있습니다. 모든 것이 한 곳에 있어서 더 간단합니다."

— Ivo Van de Grift, 데이터 팀 기술 책임자, Ahold Delhaize(Etos)

ahold delhaize logo

databricks iq

데이터 인텔리전스 기반

DatabricksIQ는 Data Intelligence Platform의 모든 부분에 AI를 도입하는 Data Intelligence Engine으로, Databricks Assistant와 같은 도구를 통해 데이터 엔지니어의 생산성을 향상시킵니다. 생성형 AI를 활용하고 Databricks 환경에 대한 포괄적인 이해를 바탕으로 Databricks Assistant는 SQL 또는 Python 코드를 생성하거나 설명하고, 문제를 감지하고, 수정 사항을 제안할 수 있습니다. 또한 DatabricksIQ는 파이프라인을 이해하고 지능형 오케스트레이션 및 흐름 관리를 사용하여 파이프라인을 최적화하여 서버리스 컴퓨팅을 제공할 수 있습니다.

optimization slider

차세대 데이터 스트리밍 엔진

Apache Spark™ Structured Streaming은 전 세계적으로 가장 많이 사용되는 오픈 소스 스트리밍 엔진입니다. 오픈 소스로 여러 조직에서 널리 채택되고 있으며 Spark 워크로드를 실행하기에 최적의 장소인 Databricks에서 스트리밍 데이터 파이프라인을 구동하는 핵심 기술입니다. Spark Structured Streaming은 배치 및 스트리밍 처리에 하나의 통합된 API를 제공합니다. 코드를 변경하거나 새로운 기술을 배우지 않고도 손쉽게 스트리밍 데이터 워크로드를 구현할 수 있습니다. 지연 시간이나 비용을 최적화하기 위해 연속 처리와 트리거 처리 간에 쉽게 전환할 수 있습니다.

data governance sql row filtering

최첨단 데이터 거버넌스, 안정성 및 성능

Databricks에서 데이터 엔지니어링을 사용하면 Data Intelligence Platform의 기본 구성 요소(Unity Catalog 및 Delta Lake)를 활용할 수 있게 됩니다. ACID 트랜잭션을 통해 안정성을 제공하고 확장 가능한 메타데이터를 매우 빠른 속도로 처리하는 오픈 소스 스토리지 형식인 Delta Lake로 가공되지 않은 데이터를 최적화합니다. 여기에 Unity Catalog를 결합하면 모든 데이터와 AI 자산에 세분화된 거버넌스를 제공할 수 있을 뿐만 아니라, 모든 클라우드에서 일관적인 데이터 탐색, 액세스, 공유 모델을 적용하여 거너번스 방식을 단순화합니다. 또한, Unity Catalog는 다른 조직과 간단하고 안전하게 데이터를 공유할 수 있는 업계 최초의 오픈 프로토콜인 Delta Sharing을 지원합니다.

통합

기술 파트너로 구성된 개방형 에코시스템을 활용하여 업계를 선도하는 데이터 엔지니어링 도구와 매끄럽게 통합해 보세요.

데이터 수집 및 ETL

Fivetran logo
dbt logo
hightouch logo
Matillion
Informatica
Confluent
Qlik
Airbyte logo
Prophecy
StreamSets
alteryx
snaplogic-logo1660758008
Rivery logo
Snowplow logo
Hevo

고객

"아무리 까다로운 질문이라도 데이터 엔지니어를 불러 데이터에 대한 맥락 없이 데이터 파이프라인을 가리키면 필요한 답을 빠르게 얻을 수 있다는 사실을 몇 번이고 경험했습니다."
— Barb MacLean, 수석 부사장, Coastal Community Bank

블로그 읽기

"Delta Live Tables 덕분에 개발 속도가 크게 향상되었습니다. 과거에는 데이터를 원시 데이터에서 구분 분석된 데이터로 변환하기 위해 복잡한 ETL 프로세스를 사용해야 했습니다. 현재는 간단한 노트북 하나만 있으면 이 작업을 수행할 수 있으며, 필요에 따라 Delta Live Tables를 사용하여 데이터를 실버 또는 골드로 변환할 수 있습니다."
— Advait Raje, 데이터 엔지니어링 팀 책임자, Trek Bicycle

블로그 읽기

"저희는 기본 오케스트레이션 도구로 Databricks Workflows를 사용하여 ETL을 수행하고 약 300개의 작업을 자동화하며 이 중 약 120개 작업은 정기적으로 실행할 예정입니다."
— Robert Hamlet, 수석 데이터 엔지니어, 엔터프라이즈 데이터 서비스, Cox Automotive

블로그 읽기

"가격 대비 성능을 최적화하려고 했던 저희의 목표를 Databricks가 즉시 충족시켜 주었습니다. Data Intelligence Platform은 혼합 워크로드 전반에서 성능 저하 없이 비용을 절감하도록 지원하여 현재는 물론 미래의 데이터 및 AI 운영을 최적화할 수 있게 해주었습니다."
— Mohit Saxena, 공동 창업자 겸 그룹 CTO, InMobi

블로그 읽기

FAQ

데이터 엔지니어링은 데이터 소스에서 가공되지 않은 데이터를 가져와 데이터 분석, 비즈니스 인텔리전스(BI) 또는 머신 러닝(ML) 모델 학습과 같은 다운스트림 사용 사례에 맞게 저장 및 정리할 수 있도록 처리하는 작업입니다. 다시 말해, 데이터에서 가치를 추출할 수 있도록 데이터를 준비하는 과정입니다. 일반적인 데이터 엔지니어링 패턴의 예로는 ETL(추출, 변환, 로드)이 있습니다. 이는 데이터 소스에서 데이터를 추출하고ㅍ, 데이터를 변환하여, 데이터 웨어하우스와 같은 대상 시스템에 로드(또는 저장)하는 데이터 파이프라인을 정의합니다.