オルタナティブデータ
Databricks 無料トライアル
オルタナティブ(代替)データとは
オルタナティブデータ(代替データとも呼ばれる)とは、従来のソースではなく、他のユーザーによって使用されていない代替データソースから収集されたデータ情報です。オルタナティブデータを分析に活用することで、業界標準のデータソースでは得ることができない洞察を取得することが可能で す。ただし、正確には何をオルタナティブデータとみなすかは業界によって異なり、自社や競合他社で既に使用されている従来のデータソースに依存されています。
標準的なオルタナティブデータタイプ
オルタナティブデータに使用される主なデータタイプは次のとおりです。
- 衛星データ
- モバイルデータ
- センサーデータ
- Web データ
その他、オルタナティブデータに含まれる情報:
- 位置情報(フット・トラフィック)
- クレジットカードによる取引
- メールによる電子レシート
- POSトランザクション
- ソーシャルメディアの投稿
- インターネット閲覧履歴
- ドックレシート
- 商品レビュー
- 価格推移
- 天気および微気候
- フライトおよび配送の追跡
近年では、モバイル機器、衛星、センサ、Webサイトなどからのデータの増加により、ビッグデータと総称される膨大な量の構造化・半構造化・非構造化データが発生しています。オルタナティブデータを活用することで、独自のインサイトの取得、業界における競争優位性、収益の増加を実現できます。また、さまざまなソースから得たデータセットを組み合わせることで、企業に特化した競争の激しい市況の概観を明確に把握することができるようになります。オルタナティブデータへのアクセスには、主に次の3つの方法 があります。
- 生データの取得
- サードパーティライセンス
- Webスクレイピング(WebハーベスティングまたはWebデータの抽出)。Webスクレイピングとは、Webサイトからデータを抽出し、業界での成功につながる重要トピックの洞察を収集できるアプリーケーション・プログラミング・インターフェイス(API)です。Webスクレイピングの新しい形態では、Webサーバからデータフィードを待ち受けします。たとえば、JSONは、クライアントとWebサーバ間のトランスポートストレージメカニズムとして幅広く使用されています。
自動スクレイピング手法
- HTML解析:HTML解析はJavaスクリプトで実行され、リニアまたはネストされたHTMLページを対象としています。
- DOM解析:文書オブジェクトモデル(DOM)は、XMLファイル内に含まれる形式、構造、コンテンツを定義します。
- 垂直統合:垂直統合型プラットフォームは、特定の垂直方向を対象とした高い計算能力を備えた組織によって作成されます。
- XPath:XML Path Language(XPath)はXML文書で使用できるクエリ言語です。
- Googleドキュメント:GoogleスプレッドシートはPythonやRubyなどのプログラミング言語でスクレイパーを記述しているように使用できるため、特定のタイプのスクレイパーの原理を導入する適切かつ迅速な方法です。
- 文字列のパターンマッチング:UNIX の grep コマンドを利用した正規表現とのマッチング手法で、PerlやPythonのような一般的なプログラミング言語をサポートします。