주요 컨텐츠로 이동

데이터 + AI 커리어의 비밀 살펴보기

Jody Soeiro de Faria
Kathryn Kearney
Sean Park
Trang Le
이 포스트 공유하기

(번역: Eunwoo Kim) Original Blog Post

데이터 + AI 경력을 가속화하기 위해 역할 기반의 경로를 통한 기술 향상 시키기

Databricks는 기술을 향상하거나 재교육하려는 개인, 팀 및 조직이 액세스 가능하고 관련성 높은 콘텐츠를 갖도록 데이터, 분석 및 AI 분야 전반에 걸쳐 학습자를 위한 기술 교육을 제작하고 반복하는 데 수년을 보냈습니다. AI/ML의 폭발적인 증가와 데이터, 분석, AI에서의 역할로 인해 많은 조직에서 새로운 기술을 채택해야 할 필요성이 높아졌습니다. 2022년에서 2025년 사이에 AI와 관련된 9,700만 개의 일자리가 창출될 것으로 예상됩니다. 이는 확장 가능한 방식으로 인재를 양성하는 별도의 방안이 필요하다는 것입니다.

 

Databricks' Learning Festival을 통해 지금 경력을 향상하세요.

Databricks의 가상 학습 페스티벌은 고객, 잠재 고객 및 파트너를 위해 구축된 데이터 엔지니어링, 데이터 과학 및 데이터 분석 과정 전반에 걸쳐 기술을 향상하고 재교육할 수 있는 특별한 기회입니다. 이 이벤트에서는 무료로 자기 주도형 역할 기반 콘텐츠에 액세스할 수 있습니다. 자습형 교육을 성공적으로 마친 사람들은 50% 할인된 데이터브릭스 인증 바우처를 받을 수 있습니다. (자세한 내용은 아래 참조)

 

자기 주도형으로 전반적인 목표 학습

1: 데이터 엔지니어 코스 - 데이터브릭스 데이터 엔지니어링

이 과정은 데이터 전문가가 Databricks 데이터 인텔리전스 플랫폼을 활용하여 ETL 파이프라인을 생산화할 수 있도록 준비시킵니다. 학생들은 Delta Live Tables를 사용하여 다양한 데이터 소스의 새로운 데이터를 플랫폼으로 점진적으로 처리하는 파이프라인을 정의하고 선점합니다. 또한 학생들은 Databricks Workflows를 사용하여 작업을 조정하고 Databricks Repos를 사용하여 코드를 입력합니다.

학습 목표:

  • 데이터브릭스 데이터 과학 및 엔지니어링 작업 영역을 사용하여 데이터 엔지니어링 워크플로에서 일반적인 코드 개발 작업을 수행합니다.
  • Spark SQL 또는 PySpark를 사용하여 다양한 소스에서 데이터를 추출하고, 일반적인 정리 변환을 적용하고, 고급 기능으로 복잡한 데이터를 조작하세요.
  • Spark SQL 또는 Python의 Delta Live Tables를 사용하여 레이크하우스의 여러 테이블을 통해 데이터를 점진적으로 수집하고 처리하는 데이터 파이프라인을
    정의하고 예약합니다.
  • Databricks Workflow Jobs를 사용하여 데이터 파이프라인을 조정하고 대시보드 업데이트를 예약하여 분석을 최신 상태로 유지하세요.
  • 사용자가 분석 및 대시보드 작성을 위해 데이터베이스에 적절하게 액세스할 수 있도록 Unity Catalog에서 권한을 구성하세요.

등록 링크

 

2: 데이터 엔지니어 코스 - 데이터브릭스를 사용한 고급 데이터 엔지니어링

이 과정에서 학생들은 Apache Spark, 구조적 스트리밍 및 Delta Lake에 대한 기존 지식을 바탕으로 Databricks에서 제공하는 도구 모음을 활용하여 생성 데이터 플랫폼의 잠재력을 최대한 활용하게 됩니다. 이 과정에서는 증분 데이터 처리를 선호하는 설계에 중점을 두고, 지속적으로 증가하는 데이터를 지속적으로 수집하고 분석하도록 최적화된 시스템을
활성화합니다. 기본 제공 플랫폼 최적화를 활용하는 워크로드를 설계함으로써 데이터 엔지니어는 코드 유지 관리 및 긴급 긴급 상황에 대한 부담을 줄이고 리팩토링이나 가동 중지 시간을 최소화하면서 새로운 요구 사항에 맞게 프로덕션 코드를 신속하게 조정할 수 있습니다. 이 과정은 Databricks Certified Data Engineering Professional 시험에 응시하기 전에 마스터해야 합니다.

학습 목표:

  • 데이터브릭스 데이터 인텔리전스 플랫폼에 최적화된 데이터베이스 및 파이프라인을 설계합니다.
  • 효율적인 증분 데이터 처리를 구현하여 비즈니스 의사 결정 및 애플리케이션을 주도하는 데이터를 검증하고 강화합니다.
  • 중요한 데이터에 대한 액세스를 관리하고 잊혀질 권리 요청을 이행하기 위해 데이터브릭스 기본 기능을 활용합니다.
  • 데이터브릭스 도구를 사용하여 코드 승격, 작업 조정 및 프로덕션 작업 모니터링을 관리하세요.

등록 링크

 

3: 데이터 분석가 코스 - 데이터브릭스 SQL을 사용한 데이터 분석

이 과정에서는 Databricks SQL에 대한 포괄적인 소개를 제공합니다. 이는 Databricks SQL 인증의 Associate Data Analysis를 원하는 개인을 지원하기 위해 설계되었습니다. 참가자는 데이터 수집, 쿼리 작성, 시각화 및 대시보드 생성, Partner Connect를 사용하여 Databricks SQL을 추가 도구에 연결하는 방법에 대해 알아봅니다.

학습 목표:

  • Lakehouse 아키텍처에서 Databricks SQL이 작동하는 방식 설명
  • Unity Catalog 및 Delta Lake를 Databricks SQL과 통합
  • Databricks SQL이 데이터 보안을 구현하는 방법 설명
  • Databricks SQL의 데이터 쿼리
  • Databricks와 관련된 SQL 명령 사용
  • Databricks SQL에서 시각화 및 대시보드 만들기
  • Databricks SQL에서 자동화 및 통합 기능 사용
  • Databricks SQL을 사용하여 다른 사람과 쿼리 및 대시보드 공유

등록 링크

 

4: 기계 학습 실무자 코스 - Apache Spark를 사용한 확장 가능한 기계 학습

이 과정에서는 분산 교육, 하이퍼파라미터 튜닝, 추론을 포함하여 Spark를 사용하여 ML 파이프라인을 확장하는 방법을 설명합니다. MLflow를 활용하여 이러한 모델을 추적, 버전 지정 및 관리하는 동시에 SparkML로 ML 모델을 구축하고 조정합니다. 이 과정에서는 Pandas UDF, Pandas Functions, Spark의 pandas API 등 Apache Spark의 최신 ML 기능과 Feature Store, AutoML 등의 최신 ML 제품을 다룹니다.

학습 목표:

  • Spark로 확장 가능한 EDA 수행
  • SparkML을 사용하여 기계 학습 모델 구축 및 조정
  • MLflow를 사용하여 모델 추적, 버전 지정 및 배포
  • HyperOpt를 사용하여 분산 하이퍼매개변수 조정 수행
  • Databricks Machine Learning 작업 영역을 사용하여
    Feature Store 및 AutoML 실험 만들기
  • Spark에서 pandas API를 활용하여 pandas 코드 확장

등록 링크

 

5: 기계 학습 실무자 코스 - 프로덕션에서의 기계 학습

이 과정에서는 기계 학습 모델을 프로덕션에 적용하기 위한 MLOps 모범 사례를 학습합니다. 과정의 전반부에서는 특성 저장소를 사용하여 훈련 데이터를 등록하고 MLflow를 사용하여 기계 학습 수명 주기를 추적하고 배포용 모델을 패키지하고 모델 버전을 관리합니다. 과정의 후반부에서는 배포 패러다임, 모니터링, CI/CD를 포함한 프로덕션 문제를 검토합니다. 이 과정이 끝나면 기계 학습 모델을 기록, 배포 및 모니터링하기 위한 엔드투엔드 파이프라인을 구축하게 됩니다.

학습 목표:

  • 기계 학습 실험을 추적, 버전 관리 및 관리합니다.
  • 재현 가능한 데이터 관리를 위해 Databricks Feature Store를 활용하세요.
  • 배치, 스트리밍, 실시간 모델 배포 전략을 구현합니다.
  • 드리프트 감지를 포함한 모니터링 솔루션을 구축하세요.

등록 링크

Databricks Learning Festival의 한 부분으로, 추가적으로 제공되는 학습 계획이 4개 더 있습니다.

 

* Databricks 인증 바우처 자격을 얻는 방법

가상 학습 페스티벌 기간 내에 역할 기반 과정 중 하나 이상을 완료한 사용자 중 선착순 5,000명에게 데이터브릭스 자격증 50% 할인권1이 제공됩니다. 나머지 미화 100달러는 시험 등록 시 webassesor를 통해 신용카드로만 결제할 수 있습니다.

 

[참고 정보]

1. 학습자가 한 개 또는 여러 개의 코스/학습 계획을 완료하더라도 바우처는 한 개만 제공됩니다.
2. 바우처의 유효기간은 6개월입니다(즉, 6개월 후 만료됨).
3. 바우처는 다음 시험에만 적용됩니다:

  • 데이터브릭스 공인 데이터 엔지니어 어소시에이트
  • 데이터브릭스 공인 데이터 엔지니어 전문가 시험
  • 데이터 브릭스 공인 데이터 분석가 어소시에이트
  • 데이터브릭스 공인 머신러닝 어소시에이트
  • 데이터브릭스 공인 머신러닝 전문가

4. 바우처는 이벤트 종료 후 1~2주 후에 배포됩니다.
5. 자격증 바우처는 다른 혜택이나 성공 크레딧과 함께 사용할 수 없습니다.

질문이 있으신가요? 데이터브릭스 커뮤니티에서 문의하세요 : 데이터브릭스 아카데미 학습자용 그룹

버츄얼 Databricks 학습 페스티벌을 통해 지금 바로 데이터브릭스 아카데미로 업스킬링 및 재교육을 시작하세요.

Databricks 무료로 시작하기

관련 포스트

모든 회사 블로그 포스트 보기