대체 데이터
Databricks 무료로 시작하기
대체 데이터란 무엇입니까?
대체 데이터(Alternative data)는 남들이 사용하지 않는, 비일반적인 정보 출처를 가리키는 대안적(alternative) 데이터 소스를 사용해 수집한 정보입니다. 대체 데이터를 분석하면 업계의 평범한 데이터 소스가 제공할 수 있는 범위를 벗어난 인사이트를 얻을 수 있습니다. 다만 정확히 무엇을 대체 데이터로 간주해야 하는지는 업종마다 다릅니다. 이 개념의 정의는 우리 회사나 경쟁사가 이미 사용 중인 기존 데이터 소스의 종류에 좌우되기 때문입니다.
일반적인 대체 데이터 유형
대체 데이터라고 할 때 주로 사용되는 데이터 유형이 몇가지 있습니다.
- 위성 데이터
- 모바일 데이터
- 센서 데이터
- 웹 데이터
다만 다음과 같은 데이터도 대체 데이터라고 볼 수 있습니다.
- 지리적 위치(유동 인구)
- 신용카드 트랜잭션
- 이메일 수신
- POS(Point-of-sale) 트랜잭션
- 소셜 미디어 게시물
- 온라인 탐색 활동
- 선적 컨테이너 영수증
- 제품 리뷰
- 가격 추적기
- 날씨와 미세기후(micro-climate)
- 항공 및 선박 추적데이터
최근 몇 년간 모바일 디바이스, 위성, 센서와 웹사이트에서 유입되는 데이터가 증가하면서 엄청난 양의 구조적, 반구조적, 비구조적 데이터가 생겼습니다. 이것을 통상 '빅데이터'라고 합니다. 대체 데이터를 사용하면 고유한 인사이트, 업계에서의 경쟁 우위를 얻고 이윤을 극대화할 수 있습니다. 다양한 소스에서 얻은 데이터 세트를 조합해 회사별, 경쟁 시장 현황의 명확한 개요를 파악할 수 있습니다. 대체 데이터에 액세스하는 데 사용할 수 있는 방법은 크게 세 가지입니다.
- 원시 데이터 획득
- 타사 라이선싱
- 웹 스크레이핑(또는 웹 하베스팅이나 웹 데이터 추출이라고도 함) 웹 스크레이퍼는 API(Application Programming Interface)의 일종으로, 웹사이트에서 데이터를 추출하며 업계에서 크게 성공하는 데 필요한 바람직한 주제에 관한 주요 인사이트를 수집할 줄 압니다. 최신 웹 스크레이핑 형식의 경우 웹 서버에서 유입되는 데이터 피드를 수신하는 것도 있습니다. 예를 들어 JSON은 클라이언트와 웹 서버 사이의 전송 스토리지 메커니즘으로 흔히 쓰입니다.
자동 스크레이핑 기법
- HTML 파싱: HTML 파싱은 Java 스크립트를 이용해 수행하며, 선형 또는 중첩형 HTML 페이지가 표적입니다.
- DOM 파싱: DOM(Document Object Model)은 XML 파일 내에 포함된 스타일, 구조와 내용을 정의합니다.
- 업종 집계(Vertical Aggregation): 업종 집계 플랫폼은 특정 업종을 표적화하는 엄청난 컴퓨팅 파워가 특징이며, 기업 조직에서 만듭니다.
- XPath: XML Path Language, 즉 XPath는 XML 문서에 사용할 수 있는 쿼리 언어입니다.
- Google Docs: Google 시트는 Python이나 Ruby와 같은 프로그래밍 언어로 스크레이퍼를 쓰는 것과 거의 다름없이 사용할 수 있기 때문에 특정 유형의 스크레이퍼 기본 요소를 신속하게 도입하기 좋 습니다.
- 텍스트 패턴 매칭: 이것은 UNIX grep 명령을 사용하는 정규식 매칭 기법으로, Perl 또는 Python과 같은 대중적인 프로그래밍 언어와 함께 씁니다.