Petastorm은 Apache Parquet 형식의 데이터 세트에서 딥 러닝 모델을 단일 머신 또는
분산 학습 및 평가할 수 있는 Uber의 인기 있는 오픈 소스 라이브러리입니다.
Petastorm 0.9.0이 Apache Spark DataFrame에서 TensorFlow 데이터세트 및
PyTorch DataLoader로의 간편한 데이터 변환을 지원한다는 소식을 발표하게 되어 기쁩니다.
새로운 Spark 데이터세트 변환기 API를 사용하면 여러 데이터 소스에서 대규모 데이터에 대한
분산 모델 학습 및 추론을 더 쉽게 수행할 수 있습니다. Spark 데이터세트 Converter API는
Xiangrui Meng, Weichen Xu, Liang Zhang(Databricks)이 Yevgeni Litvin 및
Travis Addair(Uber)와 공동으로 기여했습니다.
딥러닝 파이프라인의 핵심 단계는 데이터를 DL 프레임워크의 입력 형식으로 변환하는 것입니다. Apache Spark는 가장 널리 사용되는 빅데이터 프레임워크입니다. Apache Spark에서 딥 러닝 프레임워크로의 데이터 변환 프로세스는 지루할 수 있습니다. 예를 들어 기능 열과 레이블 열이
있는 Apache Spark DataFrame을 TensorFlow 데이터세트 파일 형식으로 변환하려면 사용자는 Apache Spark DataFrame을 parquet 형식으로 분산 파일 시스템에 저장하고 Petastorm과 같은 타사 도구를 사용하여 변환된 데이터를 로드하거나 spark-tensorflow-connector를 사용하여 TFRecord 파일에 직접 저장하고 TFRecordDataset를 사용하여 다시 로드해야 합니다. 두 방법 모두 중간 데이터 파일을 관리하기 위해 20줄 이상의 코드를 사용하고, 서로 다른 구문 분석 구문을 사용하며, Spark DataFrames에서 열을 처리하는 데 각별한 주의가 필요합니다. 이러한 엔지니어링 마찰은 데이터 사이언티스트의 생산성을 저해합니다.
Databricks는 이러한 지루한 데이터 변환 프로세스 단계를 간소화하기 위해 Petastorm에
새로운 Spark 데이터세트 변환기 API 를 제공했습니다. 새 API를 사용하면 몇 줄의 코드로
Spark DataFrame을 TensorFlow 데이터 세트 또는 PyTorch DataLoader with default parameter로 변환할 수 있습니다.
Spark 데이터세트 변환기 API는 다음과 같은 기능을 제공합니다.
자세한 내용은 리소스 섹션의 링크를 확인하세요.
모든 요구 사항이 설치된 상태에서 아래에 링크된 엔드투엔드 예제 노트북과 Databricks Runtime for Machine Learning 7.0 베타의 리소스 섹션을 사용해 보세요.
AWS 노트북
Azure 노트북
이 기능을 사용할 수 있도록 자세한 리뷰와 토론을 해주신 Uber의 Petastorm 저자 Yevgeni Litvin과 Travis Addair에게 감사드립니다!
엔드투엔드 예제가 포함된 Databricks 설명서( AWS | Azure )
Petastorm GitHub 홈페이지
Petastorm SparkDatasetConverter API 설명서