데이터세트(DataSet)
데이터세트란?
데이터세트는 분석 또는 처리를 위해 함께 구성되고 저장된 데이터의 구조화된 모음입니다. 데이터세트의 데이터는 일반적으로 어떤 식으로든 관련되어 있으며 단일 소스에서 가져오거나 단일 프로젝트용으로 사용됩니다. 예를 들어, 데이터세트에는 비즈니스 데이터(매출 통계, 고객 연락처 정보, 거래 등) 모음이 포함될 수 있습니다. 데이터세트에는 숫자 값부터 텍스트, 이미지, 오디오 녹음에 이르기까지 다양한 유형의 데이터가 포함될 수 있습니다. 데이터세트의 데이터는 일반적으로 개별 또는 조합하여 액세스하거나 전체 엔터티로 관리할 수 있습니다.
데이터세트는 데이터 분석 및 머신 러닝(ML)의 기본 도구로, 애널리스트가 인사이트와 추세를 도출하는 데 필요한 데이터를 제공합니다. ML 프로젝트에 적합한 데이터세트를 선택하는 것은 ML 모델을 성공적으로 학습시키고 배포하는 가장 중요한 초기 단계 중 하나이기 때문에 ML에 필수적입니다.
자세히 보기
데이터 세트일까요, 아니면 데이터세트일까요?
데이터세트가 한 단어인지, 아니면 두 단어인지에 대한 논쟁이 있습니다. 메리엄-웹스터 사전에는 이를 한 단어로 사용하지만 Dictionary.com과 같은 다른 소스에서는 데이터 세트를 사용합니다. Databricks에서는 데이터세트로 사용합니다.
데이터세트와 데이터베이스 비교
데이터세트와 데이터베이스라는 용어를 혼동하는 경우도 많습니다. 데이터베이스와 데이터세트 모두 데이터의 구성과 관리를 설명하는 데 사용되는 관련성 높은 용어이지만 다음과 같은 몇 가지 의미 있는 방식에서 차이가 있습니다.
첫 번째 섹션에서 정의한 대로 데이터세트는 분석 및 모델링에 사용되는 데이터 모음이며, 일반적으로 구조화된 형식으로 구성됩니다. 구조화된 형식은 Excel 스프레드시트, CSV 파일, JSON 파일 또는 기타 형식일 수 있습니다. 데이터세트의 데이터는 여러 가지 방법으로 구성되는데, 고객 설문 조사, 실험 또는 기존 데이터베이스와 같은 다양한 소스에서 생성될 수 있습니다. 데이터세트는 머신 러닝 모델의 학습 및 테스트, 데이터 시각화, 연구 또는 통계 분석을 포함한 다양한 용도로 사용할 수 있습니다. 데이터세트는 공개적 또는 제한적으로 공유할 수 있습니다. 데이터세트는 일반적으로 데이터베이스에 비해 크기가 작습니다.
데이터베이스는 전자 방식으로 저장된 대량의 조직화된 데이터를 장기간 저장하고 관리하도록 설계되었으므로 데이터에 쉽게 액세스하고 조직 및 업데이트할 수 있습니다. 즉, 데이터베이스는 여러 개의 데이터세트로 저장된 데이터가 구성된 모음입니다. 관계형 데이터베이스, 문서 데이터베이스, 키-값 데이터베이스 등 다양한 유형의 데이터베이스가 있습니다.
데이터세트의 예
데이터세트에는 숫자, 텍스트, 이미지, 오디오 녹음 또는 개체에 대한 기본 설명이 포함될 수 있습니다. 데이터세트는 테이블, 파일 등 다양한 형태로 구성될 수 있습니다. 데이터세트의 몇 가지 예는 다음과 같습니다.
- 지정된 기간 동안 특정 지역의 모든 부동산 매매 목록을 포함하는 데이터세트
- 알려진 모든 운석 낙하에 대한 정보가 포함된 데이터세트
- 지정된 기간 동안 특정 지역의 대기질에 대한 데이터세트
- 2021~2022학년도 학생 그룹 및 학군별 공립학교 프리킨더(Pre-K-12) 과정의 출석률이 포함된 데이터세트
공개 데이터세트
공개 데이터세트는 누구나 액세스할 수 있는 테마나 주제를 중심으로 구성된 공개 데이터입니다. 공개 데이터세트는 일반적으로 무료이며, ML 모델을 학습시키는 데 사용할 수 있도록 쉽게 액세스하고 다운로드할 수 있는 데이터를 제공하기 때문에 데이터 사이언티스트에게 특히 유용합니다.
예를 들어, 미국 국립해양대기청(NOAA)은 수질부터 기후 변화에 이르기까지 모든 것에 대한 데이터를 제공합니다. 자동 항행 감시 시스템인 ADS-B(Automatic Dependent Surveillance) 데이터는 상업용 항공기의 움직임을 실시간으로 보여주며, 미국 연방조달청(GAS)은 20만 개 이상의 데이터세트와 수백 개의 카테고리를 포함하는 Data.gov