주요 컨텐츠로 이동

Data Ingestion(데이터 수집)

Delta Lake에 데이터를 쉽게 로드

data-ingestion-hero-video-img

Databricks를 사용하면 데이터를 효율적인 증분 방식으로 수백 개의 데이터 소스에서 Delta Lake로
수집하여 레이크하우스 에 데이터 사이언스, 머신 러닝 및 비즈니스 분석용 데이터의 가장 완전한 최신 버전을
확보할 수 있습니다.

간소화된 데이터 수집

secondary icon

Auto Loader

Auto Loader를 사용하여 데이터 레이크에 랜딩할 수 있는 모든 파일을 Delta Lake로 수집합니다. Auto Loader를 Amazon S3, Azure Data Lake Storage 또는 Google Compute Storage와 같은 클라우드 저장 서비스의 디렉토리로 지정하면, Auto Loader는 새 파일을 정확히 단 한 번 만에 증분 방식으로 처리합니다.

graphic

추적 및 모니터링

Auto Loader를 통해 처리된 파일을 추적하고, 늦게 도착하는 데이터를 검색하고, 데이터 스키마를 추론하고, 시간 경과에 따른 스키마 변경 사항을 모니터링하고, 데이터 품질 문제가 있는 데이터를 복구합니다. Auto Loader는 몇 초 만에 연속적으로 데이터를 수집할 수 있으며 한 시간에 한 번, 하루에 한 번 또는 한 달에 한 번과 같이 예상 데이터 도착률을 설정하여 예약 실행할 수도 있습니다.

Icon Graphic

COPY INTO

SQL 명령 COPY INTO를 사용하면 Delta Lake에 배치 파일 수집을 수행할 수 있습니다. COPY INTO는 정확히 단 한 번만에 파일을 수집하는 명령으로, 입력 디렉터리에 수천 개 이하의 파일이 포함되어 있고 사용자가 SQL을 선호하는 경우에 가장 적합합니다. COPY INTO는 JDBC를 통해 편리하게 Delta Lake로 데이터를 푸시하는 데 사용할 수 있습니다.

Data ingestion Delta Lake
Data ingestion - Data processing

효율적인 데이터 처리

Databricks를 사용하면 Apache Kafka, Azure Event Hubs 또는 AWS Kinesis와 같은
인기 있는 메시지 큐에서 데이터를 가져오는 데 필요한 대기 시간을 줄일 수 있습니다.
이러한 원본에서 Delta Lake로 데이터를 수집하면 보존 정책으로 인해 해당 서비스 내
데이터를 손실 없이 안전하게 보존할 수 있습니다. 비즈니스 요구 사항이 변화함에 따라
데이터를 더 저렴하고 효율적으로 재처리할 수 있으며, 머신 러닝 및 비즈니스 분석
애플리케이션에 필요한 기록을 더 오래 보존할 수 있습니다.

다른 엔터프라이즈 애플리케이션의 데이터를 통합

Azure Data Factory, Fivetran, Qlik, Infoworks, StreamSets 및 Syncsort와 같은 파트너의 방대한 데이터 수집 네트워크를 활용하여 사용하기 쉬운 커넥터 갤러리에서 애플리케이션, 데이터 저장소, 메인프레임, 파일 등으로부터 Delta Lake로 데이터를 쉽게 수집할 수 있습니다. 클라우드 기반 애플리케이션, 데이터베이스, 메인프레임, 파일 시스템의 데이터와 빅데이터를 가장 효과적으로 결합할 수 있도록 다양한
파트너 생태계를 활용합니다.

Data ingestion network of partners

Delta Lake의 애플리케이션 데이터베이스에서 변경 데이터 캡처 수집

애플리케이션 데이터베이스는 비즈니스에 있어 중요한 부분입니다. 데이터베이스를 데이터 분석 사용 사례에서 직접 사용하면 데이터베이스에 과부하가 발생하여 비즈니스 애플리케이션 중단이 발생할 수 있습니다. 따라서 해당 데이터 세트를 레이크하우스에 복제하면 비즈니스 애플리케이션의 중단 없이 분석 사용 사례에서 중요한 정보를 활용할 수 있습니다. Azure Data Factory, AWS DMS 및 Auto Loader와 같은 서비스나 Fivetran과 같은 파트너를 활용하여
데이터 저장소에서 데이터를 수집할 수 있습니다.

고객

관련 콘텐츠

웨비나

2022-01-WB-Hassle-Free-Data-Ingestion-Webinar-Series-OG-1200x628-1

eBook

2021-08-EB-Data-Management-101-on-Databricks-OG-1200x628-1

eBook

2022-02-EB-All-Roads-Lead-to-the-Lakehouse-OG-1200x628-1