Dados alternativos
O que são dados alternativos?
Dados alternativos são informações coletadas usando fontes alternativas de dados que outros não estão usando; fontes de informações não tradicionais. A análise de dados alternativos pode fornecer percepções além daquelas que as fontes de dados convencionais do setor são capazes de fornecer. No entanto, a definição exata de dados alternativos varia de um setor para outro, pois depende das fontes de dados tradicionais que você e seus concorrentes já estão usando.
Tipos de dados alternativos típicos
Quando falamos de dados alternativos, alguns tipos são mais comuns:
- Dados de satélite
- Dados móveis
- Dados de sensores
- Dados da web
No entanto, os dados alternativos também podem incluir:
- Geolocalização (tráfego de pedestres)
- Transações com cartão de crédito
- Recibos por e-mail
- Transações de ponto de venda
- Publicações em redes sociais
- Atividade de navegação online
- Recibos de contêineres de remessa
- Avaliações de produtos
- Rastreadores de preços
- Tempo e microclimas
- Rastreadores aéreos e marítimos
Nos últimos anos, o aumento dos dados provenientes de dispositivos móveis, satélites, sensores e sites levou a grandes quantidades de dados estruturados, semiestruturados e não estruturados, que são referidos sob o termo genérico de big data. O uso de dados alternativos permite obter percepções exclusivas, vantagem competitiva no setor e aumento nos lucros. É possível combinar conjuntos de dados de diferentes fontes para obter uma visão geral clara das estruturas de mercado competitivas e específicas da empresa. Existem três formas principais para acessar dados alternativos:
- Aquisição de dados brutos
- Licenciamento de terceiros
- Web scraping (ou web harvesting ou extração de dados da web). Web scraper é uma interface de programação de aplicativos (API) que extrai dados de um site e é capaz de reunir insights importantes sobre o tópico desejado necessário para ter sucesso em determinado setor. As formas mais recentes de extração de dados da web envolvem ouvir feeds de dados de servidores web. Por exemplo, JSON é comumente usado como um mecanismo de armazenamento de transporte entre o cliente e o servidor da web.
Técnicas de extração automatizada
- Análise de HTML: a análise de HTML é feita usando scripts Java e tem como alvo páginas HTML lineares ou aninhadas.
- Análise de DOM: o Modelo de Documento por Objetos (DOM) define o estilo, a estrutura e o conteúdo contidos nos arquivos XML.
- Agregação vertical: as plataformas de agregação vertical são criadas por organizações com um enorme poder de computação que têm por objetivo verticais específicos.
- XPath: XML Path Language (XPath) é uma linguagem de query que pode ser usada em documentos XML.
- Google Docs: as planilhas do Google podem ser usadas como se você estivesse escrevendo um extrator em uma linguagem de programação como Python ou Ruby. Como resultado, é uma boa e rápida maneira de introduzir o básico de determinados tipos de extratores.
- Correspondência de padrão de texto: técnica de correspondência de expressão regular que usa o comando UNIX grep e combina com linguagens de programação populares como Perl ou Python.