주요 컨텐츠로 이동

Data Transformation (데이터 변환)

데이터 변환이란?

데이터 변환은 데이터 소스에서 추출된 가공되지 않은 데이터를 사용 가능한 데이터세트로 변환하는 프로세스입니다. 데이터 파이프라인에는 여러 데이터 변환이 포함되는 경우가 많으며, 복잡한 정보를 정제되고 신뢰할 수 있는 고품질의 데이터로 변경하여 조직의 운영 요구 사항을 충족하고 실행 가능한 인사이트를 생성하는 데 사용할 수 있도록 합니다. 데이터 변환 프로세스는 데이터 엔지니어링의 핵심 프로세스입니다.

자세히 보기

데이터 엔지니어링 Big Book: 제2판

실시간 데이터 파이프라인 구축을 위한 최신 기술 가이드를 살펴보세요.

지금 다운로드

ETL 시작하기

이 O’Reilly 가이드 미리 보기를 통해 ETL 파이프라인에 대해 알아보세요.

지금 다운로드

레이크하우스 기초

이 무료 온디맨드 학습을 통해 레이크하우스를 빠르게 파악하세요.

지금 시작하기

데이터 변환이 중요한 이유

데이터 변환 프로세스는 비즈니스 데이터 애플리케이션에서 사용할 수 있도록 데이터세트를 조작합니다. 비즈니스 의사 결정을 내리는 데 사용할 수 있는 인사이트를 생성하여 가공되지 않은 데이터에서 가치를 실현하는 것이 중요합니다. 변환은 조직이 비즈니스의 과거, 현재, 미래를 더 잘 이해하고 민첩한 방식으로 기회를 추구하는 데 필요한 데이터를 제공합니다.

데이터 변환 및 ETL

데이터 변환은 ETL(추출, 변환, 로드)의 핵심입니다. 이 프로세스를 통해 데이터 엔지니어는 다양한 소스에서 데이터를 추출하고, 데이터를 사용 가능하고 신뢰할 수 있는 리소스로 변환하고, 최종 사용자가 액세스하고 다운스트림 방식으로 사용하여 비즈니스 문제를 해결할 수 있도록 시스템에 데이터를 로드할 수 있습니다. 변환 단계에서는 데이터를 정리, 매핑, 변환(대개 특정 스키마로)합니다. 

데이터 변환의 예

데이터의 품질과 무결성을 보장하기 위해 여러 가지 유형의 변환을 사용할 수 있습니다. 예를 들면 중복된 데이터를 제거하여 데이터 품질과 성능을 높이는 데이터 중복 제거, 관련 없는 데이터를 필터링하여 품질을 높이는 데이터 정제, 서로 다른 데이터 유형을 동일한 구조로 병합하는 데이터 통합 등이 있습니다. 다음 섹션에서는 더 많은 유형의 데이터 변환과 해당 정의를 소개합니다.

데이터 변환 유형

데이터 변환 프로세스는 데이터 및 최종 변환 목표에 따라 다양한 기술을 사용하여 수행할 수 있습니다. 여기에는 다음과 같은 기술이 포함될 수 있습니다.

버킷팅/비닝: 숫자 계열을 더 작은 '버킷' 또는 '빈'으로 나눕니다. Threshold 집합을 사용하여 숫자 기능을 범주형 기능으로 변경하면 됩니다.

데이터 집계: 보고 및 시각화에 더 잘 사용할 수 있도록 데이터를 요약하는 프로세스입니다. 집계는 시간, 공간 또는 기타 차원에 따른 값의 합계, 평균 또는 중앙값을 사용하는 등 다양한 방법을 사용하여 수행할 수 있습니다.

데이터 정리: 부정확하거나 불완전하거나 오래된 정보를 삭제하여 데이터의 정확성과 품질을 높이는 프로세스입니다.

데이터 중복 제거: 데이터 전송 프로세스의 속도를 높이기 위해 데이터의 중복 복사본을 식별하여 제거하는 압축 프로세스입니다.

데이터 파생: 데이터 소스에서 필요한 특정 정보만 추출하는 규칙을 만듭니다.

데이터 보강: 데이터 필드를 확장하거나 누락된 데이터 필드를 보완하기 위해 외부 데이터 소스를 사용하여 기존 데이터를 향상시키는 프로세스입니다.

데이터 필터링: 데이터를 정제하여 관련 없는 데이터는 제거하고 필요한 정보만 표시합니다.

데이터 통합: 서로 다른 데이터 유형을 동일한 구조로 병합합니다. 데이터 통합은 서로 다른 데이터를 표준화하여 전체적으로 분석할 수 있도록 합니다.

데이터 조인: 공통 데이터 필드를 사용하여 여러 데이터베이스 테이블을 단일 데이터세트로 병합합니다.

데이터 분할: 데이터를 분석하기 위해 단일 열을 여러 열로 나눕니다. 시간 경과에 따라 수집된 대량의 데이터를 분석하는 데 유용할 수 있습니다.

데이터 요약: 가치의 총계를 계산하여 다양한 비즈니스 지표를 생성하는 데이터 집계 유형입니다.

데이터 유효성 검사: 특정 데이터 문제에 대한 응답을 생성하는 자동화된 규칙을 만들어 데이터 품질을 보장합니다.

형식 변경: 다양한 데이터 유형이 포함된 필드와 관련된 문제를 해결하기 위해 형식을 변경하는 프로세스입니다.

키 재구성: 데이터 시스템의 속도 저하를 방지하기 위해 기본 내장된 의미가 있는 키를 일반 키(원본 데이터베이스의 정보를 참조하는 난수)로 변경하는 프로세스입니다.

데이터 변환 성능 최적화

데이터 변환 프로세스는 시간과 리소스가 많이 소모될 수 있으므로 비용을 절감하고 시간을 절약하기 위해서는 데이터 변환 성능을 최적화하는 것이 중요합니다. 성능 최적화 기법은 다음과 같습니다.

  • 데이터 압축
  • 파티셔닝
  • 파일 크기 조정
  • 데이터 건너뛰기 및 프루닝
  • 데이터 캐싱

Databricks의 종합 가이드를에서 데이터 변환 성능을 최적화하는 방법에 대해 자세히 알아보세요.

데이터 변환 도구

데이터 변환은 조직이 인사이트를 얻는 데 사용할 수 있는 신뢰할 수 있는 데이터를 생성하는 데 중요합니다. 그러나 데이터 변환 프로세스와 전체 ETL 프로세스는 신뢰할 수 있는 데이터 파이프라인의 구축 및 유지에서 부터 점점 더 복잡해지는 파이프라인 아키텍처에서의 데이터 품질 관리까지 중대한 도전과제일 수 있습니다. 데이터 변환 도구는 변환을 간소화하고 보편화하여 ETL 수명 주기를 단순화합니다. 

Data Intelligence Platform의 데이터 변환

Databricks는 Data Intelligence Platform에서 데이터 변환 및 ETL을 구현하고 오케스트레이션하기 위한 필수 도구를 제공합니다.

Delta Live Tables(DLT)는 데이터 엔지니어링 팀이 Data Intelligence Platform에서 고품질 데이터를 제공하는 신뢰할 수 있는 배치 및 스트리밍 데이터 파이프라인을 쉽게 구축하고 관리할 수 있게 해줍니다. DLT는 자동 데이터 품질 테스트를 제공하고, 효율적인 컴퓨팅 자동 확장을 통해 스트리밍의 비용 효율성을 높이며, 파이프라인 모니터링 및 관찰 기능에 대한 심층적인 가시성을 제공합니다.

Databricks Workflows는 데이터 팀이 데이터 파이프라인을 보다 효과적으로 자동화하고 오케스트레이션할 수 있도록 지원하는 완전히 통합된 관리형 오케스트레이션 서비스입니다. Workflows는 사용자가 ETL, 분석 및 머신 러닝 파이프라인에 대한 멀티태스킹 워크플로를 쉽게 정의, 관리, 모니터링하여 생산성을 높이는 데 도움이 됩니다. Workflows는 데이터 팀의 모든 구성원이 프로덕션 등급 데이터 파이프라인에 안전하게 참여하고 더 빠르고 안전하게 변환을 수행할 수 있게 해주는 도구인 dbt와 원활하게 통합됩니다.

용어집으로 돌아가기