Pandas API와 Spark 백엔드 (Koalas)

데모 유형

제품 튜토리얼

기간

자기 주도적 학습

소셜

학습할 내용

데이터 분석에 가장 인기 있는 프레임워크 중 하나임에도 불구하고, pandas는 분산 처리가 불가능하며 TB 단위의 데이터를 처리할 수 없습니다. Databricks는 사용자가 pandas API를 활용하면서도 Spark 분산 엔진으로 데이터를 처리할 수 있게 해 이 문제를 해결합니다. 이 데모는 판다스 API(이전에는 코알라스라고 알려져 있었습니다)를 사용하여 빅 데이터를 처리하는 방법을 보여줍니다.

 

데모를 설치하려면 무료 Databricks 작업공간 을 받아 Python 노트북에서 다음 두 명령을 실행하세요

%pip dbdemos 설치
dbdemos를 가져오기
dbdemos.install('스파크 위의 판다스')

Dbdemos는 Databricks 데모를 완전히 작업 공간에 설치하는 Python 라이브러리입니다. Dbdemos는 노트북, Delta Live Tables 파이프라인, 클러스터, Databricks SQL 대시보드, 웨어하우스 모델 등을 로드하고 시작합니다. dbdemos 사용 방법을 확인해 보세요.

 

Dbdemos는 GitHub 프로젝트로 배포됩니다.

자세한 내용은 GitHub의 README.md 파일 을 참조하고 문서를 따라주세요.
Dbdemos는 그대로 제공됩니다.
라이선스공지 를 참조하여 자세한 정보를 확인하세요.
Databricks는 dbdemos 및 관련 자산에 대한 공식 지원을 제공하지 않습니다.
문제가 발생한 경우 티켓을 열어주시면 데모 팀이 최선을 다해 살펴보겠습니다.