데이터 파이프라인(Data Pipeline)

데이터 파이프라인이란 무엇인가요?

데이터 파이프라인은 데이터가 시스템 사이를 흐르는 방식을 포괄합니다. 특정 순서로 수행되는 일련의 단계로 구성되며 한 단계의 출력이 다음 단계의 입력 역할을 합니다.

일반적으로 소스, 데이터 처리 단계, 마지막으로 대상 또는 "싱크"의 세 가지 핵심 요소가 있습니다. 전송 프로세스 중에 데이터를 수정할 수 있으며, 일부 파이프라인은 소스 시스템과 대상이 동일한 데이터 변환에 간단히 사용될 수 있습니다.

최근 몇 년 동안 새롭게 등장한 데이터의 볼륨이 커지고 종류가 다양해지면서 데이터 파이프라인은 조직의 빅데이터 요구에 대응할 수 있을 만큼 강력해져야 했습니다.

파이프라인에서 데이터 손실이 발생하지 않고, 높은 정확도와 품질을 제공하며, 비즈니스의 다양한 요구 사항에 따라 확장할 수 있도록 조치를 취해야 합니다. 파이프라인은 정형, 비정형 및 반정형 데이터에 대처할 수 있을 만큼 충분한 다목적성을 겸비해야 합니다.

데이터 엔지니어링 Big Book

AI 시대를 위한 필수 가이드를 통해 전문성을 빠르게 향상하세요.

지금 읽기

O’Reilly technical guide about ETL pipelines

ETL 시작하기

이 O’Reilly 기술 가이드를 통해 ETL 파이프라인에 대해 알아보세요.

지금 다운로드

Promotional graphic for Eckerson Group's white paper on 'Data Pipeline Orchestration: Modernizing Workflows with AI/ML.' The graphic shows a modern building facade with geometric glass patterns in the background, with the white paper title in the foreground. A red circular badge on the right side contains the text 'LEARN THE WHAT, WHY AND HOW' in white letters.

에커슨 보고서: 데이터 파이프라인 오케스트레이션

오케스트레이션이 데이터 및 AI 작업에 얼마나 중요한지, 그리고 올바른 도구를 선택하는 방법을 알아보세요.

지금 읽기

클라우드 데이터 파이프라인이란 무엇인가요?

전통적으로 데이터 파이프라인은 온-프레미스 시스템, 소스 및 도구 간의 데이터 흐름을 처리하기 위해 온-프레미스 데이터 센터에 배포되었습니다. 그러나, 데이터가 빠르게 증가하고 복잡해짐에 따라, 클라우드 데이터 파이프라인은 가장 확장 가능하고, 유연하며, 민첩한 유형의 데이터 파이프라인 아키텍처로 부상하였습니다.

이러한 솔루션들은 Amazon Web Services (AWS), Microsoft Azure, 그리고 Google Cloud Platform (GCP)과 같은 서비스를 통해 클라우드에 파이프라인 데이터를 배포합니다. 이들은 클라우드 환경에서 다양한 소스, 저장 시스템 및 분석 도구 간의 데이터 이동과 변환을 자동화하도록 설계되었으며, 이 자동화는 종종 ETL 기반의 데이터 처리 방식으로 구성됩니다. 이의 예시로는 전자상거래 웹사이트와 비즈니스 인텔리전스 소프트웨어에서 클라우드 데이터 웨어하우스로 데이터를 이동시키는 것이 있습니다.

현대 데이터 파이프라인 아키텍처 예시는 대규모 데이터 파이프라인을 통한 빠르고 정확한 데이터 이동 및 분석을 지원해야 합니다. 클라우드 네이티브 솔루션은 효율적인 데이터 처리, 실시간 분석, 간편한 데이터 통합 등을 가능하게 하는 탄력성과 유연성을 제공합니다.

데이터 파이프라인 아키텍처는 어떻게 작동하나요?

데이터 파이프라인 아키텍처는 일반적으로 5개의 상호 연결된 구성 요소 또는 단계로 분할될 수 있습니다. 각각이 다음 것으로 향하며, 데이터의 꾸준한 흐름을 만듭니다.

데이터 소스

파이프라인은 비즈니스 및 고객 데이터를 수집하는 내부 및 외부 시스템인 데이터 소스로 시작합니다. 대부분의 기업들은 스트리밍 플랫폼, 분석 도구, 매장 판매 시스템 등을 포함한 여러 시스템과 소프트웨어에서 데이터를 생성합니다. 거래 데이터부터 고객 행동까지 모든 것이 가치있을 수 있습니다.

데이터 수집(Data Ingestion)

수집 단계에서는 여러 소스에서 데이터를 수집하고 데이터 파이프라인으로 가져옵니다. 애플리케이션 프로그래밍 인터페이스(APIs)는 이 데이터를 읽고 배치 모드(특정 간격으로) 또는 스트리밍 모드(실시간으로)로 수집합니다.

그러나 모든 데이터를 취합할 필요는 없습니다. 관련 없거나 사용할 수 없는 데이터로 파이프라인이 과부하되는 것을 방지하기 위해, 데이터 엔지니어는 다양성, 볼륨, 속도를 평가하여 가치 있는 데이터만이 수집되도록 합니다.

이 작업은 수동으로 수행할 수도 있고, 일반적으로 클라우드 데이터 파이프라인의 경우처럼 자동화하여 효율성을 향상시킬 수 있습니다.

데이터 처리

이제 소화된 원시 데이터를 표준화된 형식과 구조로 변환할 시간입니다.

이 단계에서는 데이터가 다양한 과정을 거치게 됩니다:

데이터 정규화
클렌징
유효성 검사
집계
변환

주요 목표 중 하나는 데이터 형식을 표준화하고, 데이터 불일치를 조정하고, 변수 정의를 정렬하여 데이터의 일관성과 신뢰성을 증진하는 것입니다. 이 과정은 대표적인 ETL 단계의 일환이기도 합니다. 다른 작업에는 관련 없는 데이터 필터링 및 코드화된 데이터 매핑이 포함됩니다.

결국, 목표는 정보가 유효하고 신뢰할 수 있는 통찰력을 제공할 수 있을 만큼 완전하고 정확하게 보장하는 것입니다.

데이터 저장

처리되고 변환된 데이터는 그 다음에 내구성이 있고 접근 가능하며 안전한 저장소에 저장됩니다. 기업이 데이터를 저장하는 위치는 그들의 접근성, 비용, 그리고 확장성 요구에 따라 달라집니다.

일반적으로 데이터는 중앙 집중식 데이터 웨어하우스 또는 데이터 레이크에 보관되며, 여기서 분석, 비즈니스 인텔리전스, 보고를 위해 검색할 수 있습니다.

데이터 분석

데이터 과학자와 분석가들은 중앙 집중식 저장소 내의 데이터를 활용하여 다양한 방법과 도구를 사용하여 패턴, 관계, 추세 및 이상치와 같은 가치있는 분석을 추출합니다.

이에는 고급 SQL 기법, 머신러닝, 그리고 다양한 종류의 통계 분석 방법론이 포함됩니다. 그들이 추출하는 통찰력은 차트, 그래프, 히트맵이 포함된 보고서와 같은 데이터 시각화를 사용하여 제시됩니다.

데이터 파이프라인의 일반적인 예

다양한 유형의 데이터 파이프라인 아키텍처를 사용할 수 있으며, 각 아키텍처는 서로 다른 사용 사례에 적합한 속성을 가지고 있습니다.

배치 파이프라인

배치 파이프라인은 이름에서 알 수 있듯이 데이터를 배치로 처리하는 데 사용됩니다. 급여 시스템부터 데이터 웨어하우스에 이르기까지 수많은 데이터 포인트를 이동해야 하는 경우 배치 기반 파이프라인을 사용할 수 있습니다.

데이터는 실시간으로 전송되지 않습니다. 대신 지정한 일정에 따라 축적 및 이전할 수 있습니다.

스트리밍 파이프라인

스트리밍 파이프라인을 사용하여 가공되지 않은 데이터를 거의 즉시 처리할 수 있습니다. 스트리밍 처리 엔진은 데이터가 생성될 때 실시간으로 처리하므로 금융 시장이나 소셜 미디어와 같은 스트리밍 위치에서 정보에 액세스하는 조직에 적합한 옵션입니다.

Lambda 아키텍처

Lambda 아키텍처는 배치 처리 및 스트리밍 처리 방법이 결합된, 하이브리드 데이터 처리 방식을 제공합니다. 이 접근 방식에는 유연한 확장과 같은 이점이 있지만, 이점을 능가하는 문제가 있을 수 있습니다.

여러 계층(배치, 속도, 서빙)이 필요한 구식 아키텍처로 불필요하게 복잡한 경우가 많습니다. 즉, 비용은 말할 것도 없고 상당한 양의 컴퓨팅 시간과 전력이 필요합니다. 동기화 상태를 유지해야 하는 두 개의 서로 다른 코드 베이스가 존재하여 유지 관리와 디버깅이 매우 어려울 수 있습니다.

Delta 아키텍처

Databricks의 Delta 아키텍처는 Lambda 아키텍처에 대한 대안을 제공합니다. 단순성에 중점을 둔 Delta 아키텍처는 Delta Lake 내에서 데이터를 수집, 처리, 저장 및 관리합니다. Delta 아키텍처는 유지 관리해야 할 코드가 적고, 다운스트림 사용자에게 신뢰할 수 있는 단일 소스를 제공하며, 새로운 데이터 소스를 쉽게 병합할 수 있습니다. 또한 데이터 홉과 작업 실패를 줄이고 작업 완료 및 클러스터 가동 시간을 단축하여 작업 비용을 절감합니다.

현대 조직에서 데이터 파이프라인의 이점

"데이터 파이프라인"은 다양한 프로세스를 포괄하는 용어로, 다양한 용도로 사용될 수 있습니다. 데이터 의존은 모든 비즈니스에서 중요한 부분입니다.

여기서는 현대 기업에 대한 데이터 파이프라인의 주요 이점에 대해 논의하겠습니다:

데이터 정확성: 데이터 파이프라인은 데이터의 정리와 표준화를 자동화하여 오류가 발생하기 쉬운 수동 데이터 처리를 제거하고, 사일로와 중복성을 줄입니다. 결과적으로 일관성 있고 신뢰할 수 있으며 정확한 데이터를 획득하여 동일하게 신뢰할 수 있는 인사이트를 얻을 수 있습니다.
더 빠르고 비용 효율적인 데이터 통합: 데이터 파이프라인은 자동으로 데이터를 표준화합니다. 이로 인해 새로운 데이터 통합의 계획 및 구현이 훨씬 비용이 적게 들고 노동 집약적이지 않게 되어, 새로운 통합의 가치를 빠르게 실현할 수 있습니다.
유연성, 민첩성 및 확장성: 클라우드 데이터 파이프라인은 본질적으로 확장 가능하며, 동적 데이터 성장에 대응하여 즉시 탄력성을 제공합니다. 진화하는 데이터 유형, 출처, 그리고 필요성에 대한 민첩한 적응력을 가진 데이터 파이프라인은 변화하는 비즈니스와 고객의 필요성에 맞게 지수적으로 확장을 가능하게 합니다.
실시간 데이터 접근성 및 분석: 현대 비즈니스는 업계를 막론하고 실시간 데이터에 대한 접근을 의존하고 있습니다. 이는 동적 전자상거래 가격 전략을 채택하거나 중요한 환자 건강 관리 결정을 내리는 데 사용됩니다. 데이터 파이프라인은 실시간 데이터에 빠른 접근을 제공하여 운영 효율성, 비용 효과성 및 더 나은 최종 사용자 경험을 촉진합니다.
데이터 거버넌스와 보안: 통합된 거버넌스 정책, 데이터 제어, 감사 추적 및 반복 가능한 패턴이 있는 강력한 데이터 파이프라인은 데이터 보안을 유지하고 데이터 처리에 대한 규제 표준을 충족하는 데 도움이 됩니다.
결정 효율성과 정확성: 데이터의 자동 처리는 팀에게 고품질의 데이터를 제공하여 더 정확한 결정을 내리는 데 도움이 될 뿐만 아니라. 수동 작업을 간소화하고 제거하여 대규모로 철저한 데이터 분석에 더 많은 시간을 할애할 수 있습니다. 이로 인해 더욱 정보에 기반한 의사결정을 하고 기회에 빠르게 접근할 수 있습니다.

데이터 파이프라인과 ETL 파이프라인의 이해

간단히 말해, ETL은 데이터 파이프라인의 한 유형이지만, 모든 데이터 파이프라인이 ETL 파이프라인인 것은 아닙니다.

ETL 파이프라인의 의미는 그 구성 요소를 통해 가장 잘 이해할 수 있습니다: 추출, 변환 및 로드 - 데이터 통합과 관련된 세 가지 상호 의존적인 프로세스입니다. 이러한 특정 프로세스는 한 데이터베이스에서 데이터를 가져와 클라우드 데이터 웨어하우스(데이터 분석, 시각화, 보고에 사용)와 같은 다른 데이터베이스로 이동하는 데 사용됩니다. ETL 데이터 파이프라인은 이러한 작업을 수행하기 위해 사용되는 구현 세부사항입니다.

일부 데이터 파이프라인은 데이터 변환을 포함하지 않으며 ETL을 구현하지 않을 수 있습니다. 예를 들어, 데이터 파이프라인의 마지막 단계는 다른 워크플로나 프로세스를 대신 활성화하는 것일 수 있습니다.

데이터 파이프라인을 구축하는 방법

데이터 파이프라인을 구축하고 구현하는 방법은 비즈니스의 개별 요구 사항에 따라 결정되는 경우가 많습니다. 대부분 프로덕션 데이터 파이프라인은 데이터 엔지니어에 의해 구축됩니다. API를 통해 데이터 소스에 액세스하고, 필요한 변환을 수행하고, 대상 시스템으로 데이터를 전송하도록 코드를 작성할 수 있습니다.

그러나 자동화 없이는 시간, 코딩, 엔지니어링 및 운영 리소스에 대한 지속적인 투자가 필요합니다. Delta Live Tables(DLT)를 사용하면 엔드 투 엔드 파이프라인을 쉽게 정의할 수 있습니다. 다양한 데이터 처리 작업을 수작업으로 연결하는 대신 데이터 소스, 변환 논리, 데이터의 대상 상태를 지정할 수 있습니다. DLT는 모든 종속 항목을 자동으로 유지하므로, 수작업으로 조정하는 데 소요되는 시간을 줄일 수 있습니다.

자동화를 활용하는 것 외에도 데이터 파이프라인을 구축할 때 따라야 할 몇 가지 모범 사례가 있습니다:

전략적 목표 정의

데이터 파이프라인 이니셔티브의 핵심 목표와 성공을 측정하는 데 사용할 주요 성과 지표를 설정합니다. 이를 통해 명확한 프로젝트 범위를 설정하고, 적절한 데이터 모델로 안내하며, 파이프라인의 유연성, 복잡성, 확장성을 지시할 수 있습니다.

적절한 자원을 모으십시오.

견고한 아키텍처를 구축하고 유지하기 위해 필요한 데이터 파이프라인 도구와 기술은 무엇인가요? 귀하의 노동력 및 예산 요구 사항은 무엇인가요? 목표와 고유한 데이터 파이프라인 요구 사항에 맞게 리소스를 식별하고 할당합니다(예: 데이터의 양과 다양성).

데이터 소스와 수집 방법을 설정하십시오

데이터는 내부 데이터베이스, 클라우드 저장소, 실시간 데이터 스트림 등 다양한 소스에서 수집할 수 있습니다. 잠재적인 데이터 소스를 찾아내고, 그들이 생성하는 데이터의 형식과 양을 설정하며, 데이터를 파이프라인에 추출하고 통합하는 방법을 식별합니다.

예를 들어, 데이터 수집 파이프라인은 배치 또는 실시간 수집을 사용할 것인가요? 어떤 통신 계층이 필요할까요? 당신이 선택한 도구와 기술은 수집 과정에서 어떤 역할을 할 것인가요?

데이터 처리 전략 만들기

원시 데이터를 분석 가능한 구조화된 데이터로 변환하는 데 어떤 방법을 사용할 것인가요? 이 단계에서는 데이터 클리닝, 포맷팅 및 풍부화와 같은 데이터 변환 접근 방식을 설정하는 것이 중요합니다. 또한, 데이터 중복 및 관련성 없는 데이터를 줄이기 위한 조치를 정의합니다.

저장에 대해 전략적으로 생각하기

처리된 데이터를 어디에 저장할지는 데이터 볼륨, 접근성 필요성, 그리고 사용 사례 등 여러 요인에 따라 달라집니다. 이러한 고려 사항에 맞추어 저장 솔루션(데이터 웨어하우스, 데이터 레이크 등)과 위치(클라우드 또는 온프레미스)를 결정합니다. 또한 가장 중요한 데이터가 최대 접근성을 위해 어디에 저장되어야 하는지 고려해야 합니다.

데이터 워크플로우 설정하기

데이터 파이프라인은 의존성이 가득합니다. 운영 효율성을 높이고 병목 현상의 위험을 줄이기 위해 데이터 파이프라인 내의 작업 순서를 자세히 설명하는 계획을 설계합니다. 작업 순서와 의존성을 설정하고, 오류 처리 및 데이터 복구 프로토콜을 정의하세요.

모니터링 및 거버넌스 프레임워크를 설정하십시오

데이터 파이프라인의 장기적인 건강은 보안, 신뢰성, 효율성 및 성능을 유지하기 위해 지속적인 모니터링에 의존합니다. 데이터가 파이프라인에 입력되고 흐르는 과정을 추적하면서 병목 현상, 비효율성, 잠재적 취약점을 주의 깊게 관찰하세요. 모니터링 프레임워크는 잠재적인 위험을 빠르게 식별하고 완화함으로써 지속 가능한 데이터 파이프라인 가치를 증가시킵니다.

신뢰할 수 있는 데이터 소비 계층을 구현하십시오

소비 계층은 최종 사용자가 처리된 데이터에 접근하고 이를 활용하여 인사이트를 얻는 곳입니다. 비즈니스 인텔리전스 도구, API 및 보고 도구와 같은 데이터 소비를 간소화하기 위해 활용할 각 데이터 파이프라인 도구를 정확하게 지정하고, 이러한 도구가 데이터에 어떻게 연결될지 정의하십시오.

서버리스 아키텍처로 데이터 파이프라인 최적화

데이터 파이프라인을 구축할 때 고려해야 할 또 다른 옵션은 서버리스 아키텍처입니다. 이 모델은 클라우드 컴퓨팅 회사가 소유하고 관리하는 인프라를 사용하는 것을 포함합니다.

예를 들어, 서버리스 DLT 파이프라인을 사용하면 인프라의 구성 및 배포 대신 데이터 수집 및 변환에 집중할 수 있습니다. 파이프라인의 리소스는 Databricks에 의해 관리되며, 이는 향상된 활용도, 처리량 및 대기 시간을 가진 자동 최적화 컴퓨팅 리소스를 클래식 DLT보다 낮은 비용으로 제공합니다.

데이터 파이프라인 관리의 중요성은 어느 정도인가요?

비즈니스가 성장함에 따라 축적하는 데이터가 많아질수록 관리하기가 더욱 까다로워집니다. 복잡하고 혼란스럽게 수동으로 조종되는 데이터 파이프라인은 효율적이지 않은 작업 흐름과 중복되거나 관련 없거나 부정확한 데이터를 생성하여, 광범위한 운영 비효율성과 수익 손실을 초래할 수 있습니다.

이러한 이유로, 데이터 파이프라인 관리 도구는 데이터를 조정하고 모니터링하는 데 중요하며, 이를 통해 데이터가 시스템을 효율적으로 통과하면서 정확하고 신뢰할 수 있으며 접근 가능하게 합니다.

오케스트레이션은 반복 가능한 작업의 자동화와 고립된 시스템의 통합을 통해 워크플로우를 간소화하고 최적화합니다. 데이터 오케스트레이션은 여러 데이터 센터에서 정보를 수집, 집계 및 조직화하는 것을 자동화함으로써 광범위한 오케스트레이션 전략에서 핵심 역할을 합니다. 이 표준화 덕분에, 사용자들은 일관성이 있고, 완전하며, 유효하고, 정확하며, 고유하고, 최신의 고품질 데이터에 접근할 수 있습니다.

또한, 잘 설계된 데이터 파이프라인은 모든 단계에서 데이터에 대한 통찰력을 제공합니다. 효과적인 데이터 파이프라인 관리 도구는 가장 가치 있는 (또는 관련 없는) 데이터가 어디에서 오는지, 그리고 프로세스에서의 병목 현상이나 비효율성이 있는지에 대한 중요한 통찰력을 제공할 수 있습니다.

최고의 데이터 파이프라인 도구는 무엇인가요?

다양한 도구와 앱(예: Apache Spark™)을 사용하여 데이터 파이프라인을 구축하고, 유지 관리하며, 데이터 관리 및 비즈니스 인텔리전스를 개선할 수 있습니다. 이러한 앱을 사용하려면 상당한 수동 최적화가 필요할 수 있으므로 자체 파이프라인을 구축하고 사용자 지정하는 데 필요한 전문 지식을 갖춘 조직에 적합합니다.

한편, Databricks DLT(Delta Live Tables) 와 같은 솔루션은 자동화를 제공하고 복잡성을 줄여줍니다. 이 솔루션을 사용하면 Databricks 레이크하우스 플랫폼에 고품질의 데이터를 제공하는, 신뢰할 수 있는 배치 및 스트리밍 데이터 파이프라인을 쉽게 구축하고 관리할 수 있습니다. DLT를 이용하면 데이터 엔지니어링 팀에서 선언적 파이프라인 개발, 모니터링과 복구를 위한 심층적인 가시성을 바탕으로 ETL 개발과 관리를 간소화할 수 있습니다. 또한 이러한 지능형 데이터 파이프라인에는 자동 데이터 품질 테스트가 포함되어 있어 잘못된 데이터가 작업에 영향을 미치지 않도록 합니다.

데이터 파이프라인 및 그 이상을 조정하고 모니터링해야 하는 것이 무엇이든, Databricks Workflows와 같은 오케스트레이터는 복잡한 워크플로우를 정의하고, 관리하고, 자동화하는 데 필수적이며, 이를 통해 데이터 파이프라이닝을 간단하게 만듭니다.

데이터 파이프라인의 미래

그렇다면 데이터 파이프라인의 다음 단계는 무엇일까요?

그들은 비용을 최적화하면서 더 큰 규모에서 점점 복잡한 변환을 처리하고 초고속 속도로 처리할 수 있어야 합니다. 대기업의 경우, SQL과 DataFrames를 통해 변환을 표현하면 입력 데이터의 지속적으로 변화하는 상태로 인해 비용이 많이 드는 재계산이 필요합니다. 이를 대응하기 위해, 더 많은 기업들이 데이터 인텔리전스로 전환하고 있습니다.

Enzyme는 그러한 도구 중 하나입니다. 최적화 계층은 최적의 최적화 기법을 배포하는 ETL 프로세스를 자동화합니다. 이는 최신 쿼리 결과 물질화를 유지하고 분석하며, 비용 모델을 사용하여 최적의 기법을 식별하여, 하류 분석을 위한 데이터 변환을 더욱 효율적으로 최적화합니다.

고품질 데이터를 활용하면서 성능을 향상시키려는 데이터 과학자와 기업들은 이러한 추세를 계속 주시하여 데이터 파이프라인을 지금과 미래에 완전히 최적화해야 합니다.

용어집으로 돌아가기