데이터세트(DataSet)

데이터세트란?

데이터세트는 분석 또는 처리를 위해 함께 구성되고 저장된 데이터의 구조화된 모음입니다. 데이터세트의 데이터는 일반적으로 어떤 식으로든 관련되어 있으며 단일 소스에서 가져오거나 단일 프로젝트용으로 사용됩니다. 예를 들어, 데이터세트에는 비즈니스 데이터(매출 통계, 고객 연락처 정보, 거래 등) 모음이 포함될 수 있습니다. 데이터세트에는 숫자 값부터 텍스트, 이미지, 오디오 녹음에 이르기까지 다양한 유형의 데이터가 포함될 수 있습니다. 데이터세트의 데이터는 일반적으로 개별 또는 조합하여 액세스하거나 전체 엔터티로 관리할 수 있습니다.

데이터세트는 데이터 분석 및 머신 러닝(ML)의 기본 도구로, 애널리스트가 인사이트와 추세를 도출하는 데 필요한 데이터를 제공합니다. ML 프로젝트에 적합한 데이터세트를 선택하는 것은 ML 모델을 성공적으로 학습시키고 배포하는 가장 중요한 초기 단계 중 하나이기 때문에 ML에 필수적입니다.

데이터 세트일까요, 아니면 데이터세트일까요?

데이터세트가 한 단어인지, 아니면 두 단어인지에 대한 논쟁이 있습니다. 메리엄-웹스터 사전에는 이를 한 단어로 사용하지만 Dictionary.com과 같은 다른 소스에서는 데이터 세트를 사용합니다. Databricks에서는 데이터세트로 사용합니다.

데이터세트와 데이터베이스 비교

데이터세트와 데이터베이스라는 용어를 혼동하는 경우도 많습니다. 데이터베이스와 데이터세트 모두 데이터의 구성과 관리를 설명하는 데 사용되는 관련성 높은 용어이지만 다음과 같은 몇 가지 의미 있는 방식에서 차이가 있습니다.

첫 번째 섹션에서 정의한 대로 데이터세트는 분석 및 모델링에 사용되는 데이터 모음이며, 일반적으로 구조화된 형식으로 구성됩니다. 구조화된 형식은 Excel 스프레드시트, CSV 파일, JSON 파일 또는 기타 형식일 수 있습니다. 데이터세트의 데이터는 여러 가지 방법으로 구성되는데, 고객 설문 조사, 실험 또는 기존 데이터베이스와 같은 다양한 소스에서 생성될 수 있습니다. 데이터세트는 머신 러닝 모델의 학습 및 테스트, 데이터 시각화, 연구 또는 통계 분석을 포함한 다양한 용도로 사용할 수 있습니다. 데이터세트는 공개적 또는 제한적으로 공유할 수 있습니다. 데이터세트는 일반적으로 데이터베이스에 비해 크기가 작습니다.

데이터베이스는 전자 방식으로 저장된 대량의 조직화된 데이터를 장기간 저장하고 관리하도록 설계되었으므로 데이터에 쉽게 액세스하고 조직 및 업데이트할 수 있습니다. 즉, 데이터베이스는 여러 개의 데이터세트로 저장된 데이터가 구성된 모음입니다. 관계형 데이터베이스, 문서 데이터베이스, 키-값 데이터베이스 등 다양한 유형의 데이터베이스가 있습니다.

데이터세트의 예

데이터세트에는 숫자, 텍스트, 이미지, 오디오 녹음 또는 개체에 대한 기본 설명이 포함될 수 있습니다. 데이터세트는 테이블, 파일 등 다양한 형태로 구성될 수 있습니다. 데이터세트의 몇 가지 예는 다음과 같습니다.

지정된 기간 동안 특정 지역의 모든 부동산 매매 목록을 포함하는 데이터세트
알려진 모든 운석 낙하에 대한 정보가 포함된 데이터세트
지정된 기간 동안 특정 지역의 대기질에 대한 데이터세트
2021~2022학년도 학생 그룹 및 학군별 공립학교 프리킨더(Pre-K-12) 과정의 출석률이 포함된 데이터세트

공개 데이터세트

공개 데이터세트는 누구나 액세스할 수 있는 테마나 주제를 중심으로 구성된 공개 데이터입니다. 공개 데이터세트는 일반적으로 무료이며, ML 모델을 학습시키는 데 사용할 수 있도록 쉽게 액세스하고 다운로드할 수 있는 데이터를 제공하기 때문에 데이터 사이언티스트에게 특히 유용합니다.

예를 들어, 미국 국립해양대기청(NOAA)은 수질부터 기후 변화에 이르기까지 모든 것에 대한 데이터를 제공합니다. 자동 항행 감시 시스템인 ADS-B(Automatic Dependent Surveillance) 데이터는 상업용 항공기의 움직임을 실시간으로 보여주며, 미국 연방조달청(GAS)은 20만 개 이상의 데이터세트와 수백 개의 카테고리를 포함하는 Data.gov를 제공합니다.

Databricks는 Databricks Workspace에서 사용할 수 있는 타사에서 작성된 다양한 샘플 데이터세트도 제공합니다. Databricks에서 AI 및 머신 러닝과 함께 이러한 데이터세트를 사용하면 ML 팀이 데이터를 준비하고 처리할 수 있도록 지원하고, 팀 간 협업을 간소화하며, 생성형 AI 및 대규모 언어 모델(LLM)을 포함하여 실험에서 프로덕션에 이르는 전체 ML 수명 주기를 표준화할 수 있습니다.

데이터세트 사용

데이터세트를 사용하는 방법에는 여러 가지가 있습니다. 애널리스트는 데이터세트를 사용하여 비즈니스 인텔리전스 목적으로 데이터를 탐색하고 시각화합니다. 데이터 사이언티스트는 데이터세트를 사용하여 ML 모델을 학습시킵니다. 그러나 데이터세트를 사용하려면 먼저 추출, 변환 및 로드(ETL)와 같은 데이터 엔지니어링 프로세스를 사용하여 데이터를 데이터 레이크 또는 레이크하우스에 수집해야 합니다. ETL을 통해 엔지니어는 다양한 소스에서 데이터를 추출하고, 데이터를 사용 가능하고 신뢰할 수 있는 리소스로 변환하고, 최종 사용자가 비즈니스 문제를 해결하기 위해 액세스하고 사용할 수 있는 시스템에 데이터를 로드할 수 있습니다.

데이터세트 관리, 카탈로그화 및 보호

데이터세트를 사용하려면 먼저 거버넌스 시스템을 통해 데이터세트를 카탈로그화하고 관리하며 안전하게 저장해야 합니다. 효과적인 데이터 거버넌스 전략을 구현하면 조직은 데이터 기반 의사 결정에 데이터를 쉽게 사용할 수 있을 뿐만 아니라 무단 액세스로부터 데이터를 보호하고 규제 요건을 준수할 수 있습니다.

데이터브릭스는 데이터 거버넌스 문제를 해결하기 위해 레이크하우스의 데이터 및 AI 자산을 위한 통합 거버넌스 솔루션인 유니티 카탈로그(Unity Catalog)를 개발했습니다. 유니티 카탈로그를 사용하여 조직은 모든 클라우드 또는 플랫폼에서 정형 및 비정형 데이터, 머신 러닝 모델, 노트북, 대시보드, 파일을 원활하게 관리할 수 있습니다. 데이터 사이언티스트, 애널리스트, 엔지니어는 유니티 카탈로그를 사용하여 신뢰할 수 있는 데이터 및 AI 자산을 안전하게 검색하고 액세스하며 이를 바탕으로 협업할 수 있습니다.

데이터세트 공유

대부분의 데이터 사이언티스트는 데이터세트를 수집하고 분석할 뿐만 아니라 공유하기도 합니다. 데이터 공유는 연결과 협업을 촉진하여 중요한 새로운 결과를 얻을 수 있습니다. Delta Sharing은 Unity Catalog에 통합된 오픈 소스 도구로, 이를 통해 데이터 사이언티스트와 애널리스트는 클라우드, 리전, 플랫폼 전반에서 데이터와 AI를 쉽게 공유하여 독점 형식, 복잡한 ETL 프로세스나 비용이 많이 드는 데이터 복제에 의존하지 않고도 새로운 수익원과 비즈니스 가치를 창출할 수 있습니다.

추가 자료

용어집으로 돌아가기