データボルト
データボルトとは
Data Vault(データボルト)とは、データモデリングのデザインパターンで、エンタープライズ規模の分析向けのデータウェアハウスを構築する際に使用されます。データボルトには、ハブ、リンク、サテライトの 3 種類のエンティティがあります。
ハブは、ビジネスの中核となるコンセプトを、リンクは 、ハブ間のリレーションシップを表します。サテライトは、ハブに属する情報やハブ間のリレーションシップに関するデータを格納します。
データボルトは、レイクハウスのパラダイムを採用する組織に適したデータモデルです。
データボルトのモデリング:ハブ、リンク、サテライト
- ハブ:それぞれのハブは、顧客 ID、製品番号、車両識別番号(VIN)など、ビジネスの中核となるコンセプトを表します。ユーザーはビジネスキーを使用して、ハブに関する情報を取得します。ビジネスキーには、ビジネスコンセプト ID やシーケンス ID、ロード日、その他のメタデータ情報の組み合わせを含めることができます。
- リンク:リンクは、ハブ間のリレーションシップを表します。
- サテライト:サテライトは、ビジネスの中核となるコンセプトに関する記述的情報の欠落を補うものです。ハブに属する情報とハブ間のリレーションシップに関するデータを格納します。
留意すべき点
- サテライトは、他のサテライトと直接接続することはできません。
- ハブまたはリンクは、1 つまたは複数のサテライトを保持することができます。
データボルトのメリット
- アジャイル
- 構造化され、リファクタリングに柔軟に対応
- ペタバイト規模にも対応する優れたスケーラビリティ
- ETL コード生成をサポートするパターンを使用
- データレイヤー、ETL、スタースキーマなど、現行のアーキテクチャを使用可能
データボルトは、アジャイルな方法と技術に基づいているため、急速に変化するビジネス要件に適応できます。データボルトの手法を利用する大きなメリットは、モデルが変更された場合に、ETL ジョブのリファクタリングが少なくて済むことです。
レイクハウスレイヤー別のモデリング技術
前述のコンセプトを踏まえ、データボルトがどのようにブロンズ、シルバー、ゴールドのデータレイヤーに適合し、未加工データを分析に適した精製されたデータに変換するのかについて説明します。このマルチホップアーキテクチャでは、未加工データは最小限の変換とソースシステムに近いデータ構造でブロンズレイヤーに格納されます。データボルトはシルバーレイヤーに適用され、データは、ハブ、リンク、サテライトに変換されます。
ゴールドレイヤーでは、ディメンショナルモデリングや Kimball 手法により、複数のデータマートまたはデータウェアハウスを構築できます。ゴールドレイヤーはレポート作成に適しています。少ない結合で、より非正規化され、読み取りが最適化されたデータモデルを使用します。ゴールドレイヤーのテーブルが完全に非正規化されることもあります。これは通常、データサイエンティストが特徴エンジニアリング用のアルゴリズムに利用したい場合などです。
データボルトモデルをシルバーレイヤーで使用した場合、データマートやデータウェアハウスへの ETL に必要な変更はシンプルになり、大幅に削減されます。ハブがキー管理(サロゲートキー/ナチュラルキー)が容易にするためです。サテライトはあらゆる属性を保持し、ディメンションのロードを容易にします。また、リンクにより全てのリレーションシップが管理できるため、ファクトテーブルのロードは極めて容易です。