メインコンテンツへジャンプ

Lakehouse Federationの一般提供を開始

データの場所を問わず、発見・クエリ・ガバナンスを一元化
Share this post

本日、Unity CatalogのLakehouse FederationがAWS、Azure、GCPで一般提供 (GA) されたことをお知らせします。Lakehouse Federationを使用すると、すべてのデータを一か所で発見、クエリ、管理することができます。このGAリリースにより、連携ワークロードに対する安定性、セキュリティ、エンタープライズ対応が強化されます。

このブログ投稿では、Lakehouse FederationのGA機能について説明し、世界をリードする企業でのアジャイルな分析をどのように支えているかを探求し、次に何が来るのかを議論します。

Lakehouse Federation入門

世界中の組織は、規模や業界に関係なく、データとAIを活用して革新を推進しています。しかし、歴史的、組織的、技術的な理由から、データはしばしば複数の運用および分析システムに分散して残っています。この断片化はいくつかの課題を引き起こします:

  1. すべてのデータを発見し、アクセスするのが難しい
  2. エンジニアリングのボトルネックによる実行の遅延
  3. サイロ化されたシステム全体でのコンプライアンスの弱さ

Lakehouse Federationはこれらの重要な問題点を解決し、組織が分散したデータシステムを彼らのレイクハウスの拡張として公開、クエリ、管理することを簡単にします。これらの新しい機能により、次のことが可能になります:

  1. データエステートの統一ビューを構築:構造化データと非構造化データをすべて 1 か所で自動的に分類および検出し、組織内のすべてのユーザーが、データがどこに保存されているかに関係なく、利用可能なすべてのデータに安全にアクセスして探索できるようにします。
  2. 単一のエンジンで全てのデータを効率的にクエリして結合:単一のエンジンで、最も完全なデータ (取り込み不要) に対して、すべてのデータ、分析、AI ユースケースにわたるアドホック分析とプロトタイピングを高速化します。ソース全体にわたる高度なクエリ プランニングとキャッシュにより、単一のクエリで複数のプラットフォームのデータにアクセスして結合する場合でも、最適なクエリ パフォーマンスが保証されます。
  3. データソース全体でデータを保護:一つの権限モデルを使用してアクセスルールを設定し、データソース全体でデータを保護します。行や列のレベルのセキュリティ、タグベースのポリシー、一元化された監査を一貫して適用し、データの使用状況を追跡し、組み込みのデータ系統と監査可能性でコンプライアンス要件を満たします。

5,000以上のDatabricksの顧客がLakehouse Federationを活用してデータエステートを統一し、一貫したデータの発見とガバナンスを確保しています。

レイ��クハウス連携

「Lakehouse Federationを使用することで、私たちはUnity Catalogの下で複数のデータウェアハウスとデータベース全体のデータ資産を統合することができました。これにより、データの発見とアクセス管理が簡単になり、データの取り込みやアドホッククエリなど、さまざまなユースケースが可能になり、分析がこれまで以上に簡単になりました」 
— テキサス・レンジャーズの研究部門助監督、Alexander Booth 氏

一般提供

MySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure SQL Database、SQL Server、Azure Synapseコネクタの一般提供を発表できることを嬉しく思います。

このリリースは、いくつかの領域で重要なマイルストーンを示しています:

  1. パフォーマンスの向上:このリリースにより、SQL Server、Postgres、MySQL、Snowflake、Redshift、およびSynapse接続にプッシュダウン(つまり、基礎となるデータベースに委任)できる式と演算子の範囲を大幅に拡大しました。これにより、ユーザーがクエリを変更することなく、クエリのレイテンシが短縮され、マテリアライズド ビュー (MV) の作成が高速化されます。
  2. 強化された安定性と観測性:ユーザーワークロードに影響を与えることなく、障害シナリオを処理できるように、連携とプッシュダウンフレームワークを更新しました。また、フェデレーション特有のメタデータと統計をサポートするために、クエリプロファイルを改良しました。これにより、管理者は監視と監査をより良い方法で行うことができます。
  3. 新しいセキュリティオプション:AzureエコシステムソースとSnowflakeから始めて、パスワードレス認証オプション、Azure SQL用のAzure AD/Entra IDサポート、Snowflake用のOAuthサポートを追加しています。今後数ヶ月間で、AWS/Googleエコシステムにも同様の機能を追加していきます。
「Lakehouse Federationは、一元的なガバナンスでデータランドスケープを統合し、大幅な運用効率を向上させるのに役立ちました。データの洞察と品質がシームレスに統合され、私たちはクライアントに最高の洞察を提供し、広告投資からの価値を最大化することに集中できるようになりました」
— Bob Wuisman 氏、Ebiquity plcのグローバルプロダクションヘッド

次のステップ

カタログ連携

Hive Federation
Catalog federation enables Unity Catalog features like column masks, AI comment and lineage on Hive metastore and Glue tables

Lakehouse Federationを使用して、Hive Metastore(HMS)およびAWS Glueからデータを発見、管理、アクセスします。カタログ連携を使用すると、Unity Catalogに外部(または内部のDatabricks)HMSを外部カタログとして簡単にマウントできます。

Databricks HMS(内部)のユーザーにとって、これはUnity Catalogを始めて、Unity Catalogが提供する統一されたガバナンス機能を利用する簡単で直接的な方法です。

外部HMSとAWS Glueのユーザーにとって、Unity Catalogからワークフローを変更せずに外部メタストアデータにアクセスするための密接に統合された方法を提供します。

カタログ連携は現在プライベートプレビュー中です。

新しいコネクタ

Lakehouse Federationのサポート対象データソースのリストを拡大することは、お客様がデータエステートを統一するための私たちのミッションで最優先事項のままです。私たちは、Google BigQuery、すべての主要なクラウドプロバイダーにわたるデータウェアハウス連携のサポートの完了、およびSalesforce Data Cloudコネクタがパブリックプレビューになったことを発表することを嬉しく思います。

Lakehouse Federation接続
New Salesforce Data Cloud, Google Bigquery and Hive Metastore connectors

OracleとTeradataのコネクタは間もなくプレビューで利用可能になります。

高スループットデータウェアハウス接続

データウェアハウスに対するクエリ体験を高速化するために、大きなテーブルを保持する傾向があるデータウェアハウスに対して、高スループットのデータ転送を自動的に行う機能を追加しています。

今後は、Amazon Redshift&Snowflakeコネクターから始めて、データウェアハウスからのテーブルを素早くクエリー&マテリアライズできるようになります。裏側では、Lakehouse Federationは、より高速/バルクなAPI(例えば、オブジェクトストレージまたはステージングロケーションへの並行オフロード)およびこれらの結果を並行して取得します(ドライバーのボトルネックなし)。全てはユーザーの介入なしで実行できます。

Lakehouse Federationの共有

Lakehouse Federationの共有

最後に、Lakehouse Federationのデータ共有が大幅に簡単になる予定です。今後のDelta Sharingの統合により、顧客は受信者がDatabricksや基礎となるデータシステムにアクセスする必要なく、連携テーブルを外部に共有することができます。これにより、異なるシステム間で冗長なコピーが不要になり、データ共有が効率化されます。

無料トライアル

Databricks 無料トライアル

関連記事

Data + AI Summit 2024:Databricks Unity Catalogの最新情報

Translation Review by saki.kitaoka 急速に進化する人工知能とデータやジェネレーティブAIツールの爆発的な増加が特徴の時代において、企業はデータとAIのガバナンスの断片化に直面しており、データとAIの民主化の努力が妨げられています。この時代に成功するためには、企業はデータとAIのガバナンスにおいてオープンで統一されたアプローチを採用する必要があります。これには次のことが含まれます: オープンな接続性: データの出所や形式に関係なく、すべてのデータの信頼できる単一の情報源を作成する。 統一されたガバナンス: すべてのデータ(ファイル、テーブル)およびAI資産(MLモデル、AIツール、ノートブック)が中央システムで発見され、安全に管理され、監視され、追跡されるように包括的な監督を実施する。 オープンなアクセシビリティ: データとAIリソースにどのツール、コンピュートエンジン、プラットフォームからでもアクセスできる柔軟性を提供し、ロックインを回避するためにオープンスタンダードとインターフ

Data + AI Summit 2024:データ共有とコラボレーションの最新情報

Translation Review by saki.kitaoka Databricksでは、データとAIの民主化をミッションとしています。オープンなアプローチによる共有とコラボレーションは、そのリーチとインパクトを最大化するために重要です。当社のデータインテリジェンスプラットフォーム内では Delta Sharing オープンプロトコルが顧客のデータとAI資産の共有を簡単かつ安全にし、イノベーションを加速させます。サードパーティデータとのコラボレーションには、 Databricks Marketplace がすべてのデータ、分析、AIのニーズに対応するオープンマーケットプレイスを提供します。データパートナーのエコシステムが拡大する中で、さまざまなデータとAI資産を共有し、データ消費者がイノベーションを実現できるようにします。 Databricks Clean Rooms は、ビジネスがどのクラウド上でも安全な環境で簡単にコラボレーションできるプライバシー保護されたコラボレーションを提供します。先週、Delta

Unity Catalogのオープンソース化を発表します!

Translation Review by saki.kitaoka Unity Catalogのオープンソース化を発表できることを非常に嬉しく思います。 これは、クラウド、データ形式、データプラットフォーム全体でデータとAIのガバナンスを行う業界初のオープンソースカタログです。ここでは、Unity Catalogビジョンの最も重要な柱をご紹介します: オープンソースのAPIと実装: OpenAPI仕様に基づいて構築され、Apache 2.0ライセンスのもとでオープンソースのサーバー実装があります。Apache HiveのメタストアAPIやApache IcebergのRESTカタログAPIとも互換性があります。 マルチフォーマットサポート: 拡張性があり、Delta Lake、UniForm経由のApache Iceberg、Apache Parquet、CSVなど、すべての形式をサポートします。 マルチエンジンサポート: オープンAPIを使用して、Unityにカタログされたデータはほぼすべてのコンピュートエン
プラットフォームブログ一覧へ