대체 데이터
Databricks 무료로 시작하기
대체 데이터란 무엇입니까?
대체 데이터(Alternative data) 는 남들이 사용하지 않는, 비일반적인 정보 출처를 가리키는 대안적(alternative) 데이터 소스를 사용해 수집한 정보입니다. 대체 데이터를 분석하면 업계의 평범한 데이터 소스가 제공할 수 있는 범위를 벗어난 인사이트를 얻을 수 있습니다. 다만 정확히 무엇을 대체 데이터로 간주해야 하는지는 업종마다 다릅니다. 이 개념의 정의는 우리 회사나 경쟁사가 이미 사용 중인 기존 데이터 소스의 종류에 좌우되기 때문입니다.
일반적인 대체 데이터 유형
대체 데이터라고 할 때 주로 사용되는 데이터 유형이 몇가지 있습니다.
- 위성 데이터
- 모바일 데이터
- 센서 데이터
- 웹 데이터
다만 다음과 같은 데이터도 대체 데이터라고 볼 수 있습니다.
- 지리적 위치(유동 인구)
- 신용카드 트랜잭션
- 이메일 수신
- POS(Point-of-sale) 트랜잭션
- 소셜 미디어 게시물
- 온라인 탐색 활동
- 선적 컨테이너 영수증
- 제품 리뷰
- 가격 추적기
- 날씨와 미세기후(micro-climate)
- 항공 및 선박 추적데이터
최근 몇 년간 모바일 디바이스, 위성, 센서와 웹사이트에서 유입되는 데이터가 증가하면서 엄청난 양의 구조적, 반구조적, 비구조적 데이터가 생겼습니다. 이것을 통상 '빅데이터'라고 합니다. 대체 데이터를 사용하면 고유한 인사이트, 업계에서의 경쟁 우위를 얻고 이윤을 극대화할 수 있습니다. 다양한 소스에서 얻은 데이터 세 트를 조합해 회사별, 경쟁 시장 현황의 명확한 개요를 파악할 수 있습니다. 대체 데이터에 액세스하는 데 사용할 수 있는 방법은 크게 세 가지입니다.
- 원시 데이터 획득
- 타사 라이선싱
- 웹 스크레이핑(또는 웹 하베스팅이나 웹 데이터 추출이라고도 함) 웹 스크레이퍼는 API(Application Programming Interface)의 일종으로, 웹사이트에서 데이터를 추출하며 업계에서 크게 성공하는 데 필요한 바람직한 주제에 관한 주요 인사이트를 수집할 줄 압니다. 최신 웹 스크레이핑 형식의 경우 웹 서버에서 유입되는 데이터 피드를 수신하는 것도 있습니다. 예를 들어 JSON은 클라이언트와 웹 서버 사이의 전송 스토리지 메커니즘으로 흔히 쓰입니다.
자동 스크레이핑 기법
- HTML 파싱: HTML 파싱은 Java 스크립트를 이용해 수행하며, 선형 또는 중첩형 HTML 페이지가 표적입니다.
- DOM 파싱: DOM(Document Object Model)은 XML 파일 내에 포함된 스타일, 구조와 내용을 정의합니다.
- 업종 집계(Vertical Aggregation): 업종 집계 플랫폼은 특정 업종을 표적화하는 엄청난 컴퓨팅 파워가 특징이며, 기업 조직에서 만듭니다.
- XPath: XML Path Language, 즉 XPath는 XML 문서에 사용할 수 있는 쿼리 언어입니다.
- Google Docs: Google 시트는 Python이나 Ruby와 같은 프로그래밍 언어로 스크레이퍼를 쓰는 것과 거의 다름없이 사용할 수 있기 때문에 특정 유형의 스크레이퍼 기본 요소를 신속하게 도입하기 좋습니다.
- 텍스트 패턴 매칭: 이것은 UNIX grep 명령을 사용하는 정규식 매칭 기법으로, Perl 또는 Python과 같은 대중적인 프로그래밍 언어와 함께 씁니다.