DataFrames
DataFrame이란 무엇입니까?
DataFrame이란 데이터를 행과 열로 구성된 2차원 표(스프레드시트와 비슷)로 정리하는 데이터 구조입니다. DataFrame은 최신 데이터 분석에서 가장 보편적으로 쓰이는 데이터 구조 중 하나입니다. 유연하고 직관적인 방식으로 데이터를 저장하고 작업이 가능하기 때문입니다.
각 DataFrame에는 스키마라고 하는 블루프린트가 있어서, 각 열의 이름과 데이터 유형을 정의합니다. Spark DataFrames는 StringType, IntegerType 등의 보편적 데이터 유형은 물론이고 Spark 고유의 데이터 유형(예: StructType)을 포함할 수 있습니다. 누락되거나 불완전한 값은 DataFrame에서 null 값으로 저장됩니다.
간단하게 비유하자면, DataFrame이란 이름이 지정된 열을 포함한 스프레드시트와 같습니다. 다만 둘의 차이가 있다면 스프레드시트는 특정 위치의 컴퓨터 한 대에 위치하지만, DataFrame은 컴퓨터 수천 대에 존재할 수 있다는 것입니다. 이 때문에 DataFrame을 이용하면 분산형 컴퓨팅 클러스터를 사용해 빅데이터를 분석할 수 있습니다.
데이터를 한 대 이상의 컴퓨터에 배치하는 이유는 쉽게 감을 잡을 수 있습니다. 데이터가 너무 커서 시스템 하나만으로는 역부족이거나, 아니면 컴퓨터 한 대에서 연산을 수행하기에는 너무 오래 걸리기 때문입니다.
DataFrame은 다양한 언어와 프레임워크에서 공통된 개념입니다. DataFrames는 인기 있는 Python 데이터 분석 라이브러리인 pandas에서 사용하는 주요 데이터 유형이며, R, Scala 등의 언어에서도 사용됩니다.