メダリオンアーキテクチャ
メダリオンアーキテクチャとは
メダリオンアーキテクチャとは、レイクハウスのデータを論理的に整理するために用いられるデータ設計を意味します。データがアーキテクチャの 3 つのレイヤー(ブロンズ → シルバー → ゴールドのテーブル)を流れる際に、データの構造と品質を増分的かつ漸次的に向上させることを目的としています。メダリオンアーキテクチャは、「マルチホップ」アーキテクチャとも呼ばれます。
Databricks についてさらに詳しく
メダリオンアーキテクチャによるデータパイプラインの構築
Databricks は、ユーザーがわずか数行のコードからブロンズ、シルバー、ゴールドのテーブルでデータパイプラインを即座に構築できる Delta Live Tables(DLT)などのツールを提供しています。また、ストリーミングテーブルとマテリアライズドビューを使用して、ApacheSpark Structured Streaming 上に構築されたストリーミング DLT パイプラインを作成し、インクリメンタルにリフレッシュ・更新できます。詳しくは、Databricks ドキュメントを参照してください。ストリーミングテーブルとマテリアライズドビューを単一のパイプラインで組み合わせる方法について解説しています。
ブロンズレイヤー(未加工データ)
ブロンズレイヤーでは、外部ソースシステムからのあらゆるデータを格納します。ブロンズレイヤーのテーブル構造は、ロード日時、プロセス ID などの付加的な行のメタデータに加えて、ソースシステムの「そのまま」のテーブル構造に対応します。このレイヤーは、変更データの迅速な取得、ソースの履歴アーカイブ(コールドストレージ)、データリネージ、監査性の機能を備えており、ソースシステムからデータの再読み込みなしで、必要に応じた再処理を行います。
シルバーレイヤー(クレンジング・適合済みデータ)
レイクハウスのシルバーレイヤーでは、ブロンズレイヤーのデータをマッチング、マージ、フィルタリング、クレンジング(適度なレベル)し、あらゆる主要なビジネスエンティティ、コンセプト、トランザクションの「エンタープライズビュー」を提供します。(顧客マスターテーブル、店舗マスターテーブル、重複を排除したトランザクションテーブル、相互参照テーブルなど)
シルバーレイヤーでは、異なるソースからのデータをエンタープライズビューに取り込み、アドホックレポート、高度な分析、機械学習などのセルフサービス分析を可能にします。シルバーレイヤーのデータは、アナリスト、データエンジニア、データサイエンティストによるプロジェクトや分析のソースとなり、ゴールドレイヤーの企業や部門のデータプロジェクトにおいて、ビジネス上の課題の解決を支援します。
レイクハウスのデータエンジニアリングでは、一般的に、ETL ではなく ELT 処理が行われます。これは、シルバーレイヤーにデータがロードされる際に、最小限、あるいは「適度な」変換およびデータクレンジングルールのみが適用されることを意味します。データレイクでのデータの取り込みや供給における迅速性と俊敏性が優先され、シルバーレイヤーからゴールドレイヤーにデータがロードされる際には、プロジェクト特有の複雑な変換やビジネスルールが多く適用されます。データモデリングに関しては、シルバーレイヤーは第 3 正規形に近いデータモデルを備えています。このレイヤーでは、Data Vault のような書き込み可能なデータモデルを使用できます。
ゴールドレイヤー(ビジネスレベルのキュレート済みテーブル)
レイクハウスのゴールドレイヤーにあるデータは、通常、消費可能な「プロジェクト専用」データベースに整理されています。ゴールドレイヤーはレポート作成に適しています。結合が少なく、より非正規化され、読み取りが最適化されたデータモデルを使用しています。データ変換とデータ品質ルールの最終レイヤーです。顧客分析、製品品質分析、インベントリ分析、顧客セグメンテーション、商品推薦、マーキング/販売分析などのプロジェクトにおける最終プレゼンテーションレイヤーです。多くのキンボール式スタースキーマベースのデータモデル、またはインモン式データマートは、レイクハウスのこのゴールドレイヤーに適合します。
このように、データはレイクハウスの異なるレイヤーを移動する際に、キュレートされます。従来の RDBMS テクノロジースタックのデータマートや EDW をレイクハウスに取り込み、企業におけ る初の「汎 EDW」の高度な分析や機械学習を可能にするケースもあります。従来のスタックでは不可能、あるいはコストがかかりすぎるため、実現されていなかったことです。(IoT/製造業データと営業・マーケティングデータを連携させ、欠陥分析やヘルスケアゲノミクス解析を行う、EMR/HL7 臨床データ市場と金融債権データの連携によりヘルスケアデータレイクを構築してタイムリーな患者ケアの分析や改善を行うなど)。
レイクハウスアーキテクチャのメリット
- シンプルなデータモデル
- わかりやすく、導入が容易
- 増分 ETL が可能
- 未加工データからのテーブル再作成がいつでも可能
- ACID トランザクション、タイムトラベル
レイクハウスとは
レイクハウスは、データレイクとデータウェアハウスの優れた要素を取り入れたデータプラットフォームアーキテクチャです。モダンレイクハウスは、拡張性と性能に優れたデータプラットフォームです。未加工データと準備済みデータの両方をホストし、ビジネスにおける迅速な消費、高度な知見や意思決定を促進します。データサイロを解消し、企業全体の認証されたユーザーによる、単一プラットフォームでのシームレスかつセキュア なデータアクセスを可能にします。
メダリオンアーキテクチャとデータメッシュ
メダリオンアーキテクチャは、データメッシュのコンセプトと互換性があります。ブロンズとシルバーのテーブルは「1 対多」方式で結合できるため、1 つのアップストリームテーブルのデータを使用して、複数のダウンストリームテーブルを生成できます。