本日、Unity CatalogのLakehouse FederationがAWS、Azure、GCPで一般提供 (GA) されたことをお知らせします。Lakehouse Federationを使用すると、すべてのデータを一か所で発見、クエリ、管理することができます。このGAリリースにより、連携ワークロードに対する安定性、セキュリティ、エンタープライズ対応が強化されます。
このブログ投稿では、Lakehouse FederationのGA機能について説明し、世界をリードする企業でのアジャイルな分析をどのように支えているかを探求し、次に何が来るのかを議論します。
Lakehouse Federation入門
世界中の組織は、規模や業界に関係なく、データとAIを活用して革新を推進しています。しかし、歴史的、組織的、技術的な理由から、データはしばしば複数の運用および分析システムに分散して残っています。この断片化はいくつかの課題を引き起こします:
- すべてのデータを発見し、アクセスするのが難しい
- エンジニアリングのボトルネックによる実行の遅延
- サイロ化されたシステム全体でのコンプライアンスの弱さ
Lakehouse Federationはこれらの重要な問題点を解決し、組織が分散したデータシステムを彼らのレイクハウスの拡張として公開、クエリ、管理することを簡単にします。これらの新しい機能により、次のことが可能になります:
- データエステートの統一ビューを構築:構造化データと非構造化データをすべて 1 か所で自動的に分類および検出し、組織内のすべてのユーザーが、データがどこに保存されているかに関係なく、利用可能なすべてのデータに安全にアクセスして探索できるようにします。
- 単一のエンジンで全てのデータを効率的にクエリして結合:単一のエンジンで、最も完全なデータ (取り込み不要) に対して、すべてのデータ、分析、AI ユースケースにわたるアドホック分析とプロトタイピングを高速化します。ソース全体にわたる高度なクエリ プランニングとキャッシュにより、単一のクエリで複数のプラットフォームのデータにアクセスして結合する場合でも、最適なクエリ パフォーマンスが保証されます。
- データソース全体でデータを保護:一つの権限モデルを使用してアクセスルールを設定し、データソース全体でデータを保護します。行や列のレベルのセキュリティ、タグベースのポリシー、一元化された監査を一貫して適用し、データの使用状況を追跡し、組み込みのデータ系統と監査可能性でコンプライアンス要件を満たします。
5,000以上のDatabricksの顧客がLakehouse Federationを活用してデータエステートを統一し、一貫したデータの発見とガバナンスを確保しています。
「Lakehouse Federationを使用することで、私たちはUnity Catalogの下で複数のデータウェアハウスとデータベース全体のデータ資産を統合することができました。これにより、データの発見とアクセス管理が簡単になり、データの取り込みやアドホッククエリなど、さまざまなユースケースが可能になり、分析がこれまで以上に簡単になりました」— テキサス・レンジャーズの研究部門助監督、Alexander Booth 氏
一般提供
MySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure SQL Database、SQL Server、Azure Synapseコネクタの一般提供を発表できることを嬉しく思います。
このリリースは、いくつかの領域で重要なマイルストーンを示しています:
- パフォーマンスの向上:このリリースにより、SQL Server、Postgres、MySQL、Snowflake、Redshift、およびSynapse接続にプッシュダウン(つまり、基礎となるデータベースに委任)できる式と演算子の範囲を大幅に拡大しました。これにより、ユーザーがクエリを変更することなく、クエリのレイテンシが短縮され、マテリアライズド ビュー (MV) の作成が高速化されます。
- 強化された安定性と観測性:ユーザーワークロードに影響を与えることなく、障害シナリオを処理できるように、連携とプッシュダウンフレームワークを更新しました。