メインコンテンツへジャンプ

Unity Catalogに新機能!Hive MetastoreとAWS Glue Federationのパブリックプレビュー開始!

ポール・ルーム
サチン・タクール
ミシェル・レオン
Share this post

Summary

  • HMSとAWS Glue Federationにより、Unity CatalogはDatabricks内外のHive MetastoreやAWS Glueに保存されたテーブルにシームレスにアクセスし、統一的なガバナンスを提供できるようになります。
  • この機能により、データ探索の簡素化と包括的なガバナンスが可能になります。
  • HMSやAWS Glueに存在するすべてのテーブルをシームレスに読み取ることが可能になり、統合ガバナンスを実現できます。

Generated by AI

Hive Metastore(HMS)とAWS Glue Federationのパブリックプレビュー開始をお知らせします!

この新機能により、Unity CatalogはDatabricks内外に存在するHive MetastoreやAWS Glueに保存されたテーブルにシームレスにアクセスし、統一的なガバナンスを提供できるようになります。これは、Unity Catalogを通じてデータベース、データウェアハウス、カタログといった外部データソースを統一ガバナンスフレームワークの下にまとめるLakehouse Federationビジョンの重要な一歩となります。
形式や場所を問わず、すべてのデータを単一のプラットフォームから簡単に発見、ガバナンス、クエリ可能になり、組織全体のオープンなアクセスとコラボレーションを促進します。また、データインテリジェンスをすべてのデータソースに拡張することが可能になります。

このブログでは、HMSとAWS Glue Federationのメリット、仕組み、導入方法について解説します。

なぜHive MetastoreとAWS Glue Federationなのか?

HMSはビッグデータシステムにおけるデータカタログ化の初期標準として広く採用されてきました。しかし、現代のデータとAIワークロードに求められる行・列レベルの細かいアクセス制御、データの系統管理(リネージ)、モニタリング、監査といった包括的なガバナンスには十分対応できていません。

Unity Catalogはこれらの課題を解決し、データやAI資産を統合管理できる唯一のオープンガバナンスソリューションを提供します。ファイル、テーブル、MLモデル、AIツール、ノートブック、メトリクスなどを統一カタログにキュレーションし、細かいアクセス制御や監査、リネージ、クロスプラットフォーム共有を実現します。現在、10,000以上の企業がUnity Catalogを活用してデータ資産をガバナンスしています。

HMSとAWS Glue Federationは、HMSがデータアーキテクチャに深く組み込まれている組織にとって大きなメリットをもたらします。既存のHMSやAWS Glueのデプロイメントを活かしつつ、Unity Catalogの高度な機能を無理なく活用できる移行パスを提供します。これにより、既存のワークフローを維持しながら、データとワークスペースをUnity Catalogに段階的にアップグレードすることが可能です。

主なメリット

  1. シームレスな統合
    手動によるメタデータ移行なしで、既存のHMSやAWS GlueカタログをUnity Catalogに直接接続。

  2. データ探索の簡素化
    Unity Catalog内で他のデータやAI資産と並列に、HMSやAWS Glueからメタデータを統一されたインターフェイスで探索可能。

  3. 包括的なガバナンス
    Unity Catalogの細かいアクセス制御、タグ付け、分類、系統管理(リネージ)、監査機能をHMSやAWS Glueに保存されたデータに適用可能。

 

「私たちの外部Hive Metastoreには、何年分ものデータセットがカタログ化されています。HMS Federationのおかげで、これらすべてのテーブルをUnity Catalogに移行する手間をかけることなく、強力なアクセス制御やGenie Spacesを通じたセルフサービスAIツールなど、Unity Catalogの特有のメリットを即座に享受できるようになりました。」
— James Davidheiser, Technical Lead, Data Infrastructure, Asana

仕組み

Unity Catalogは、Hive Metastore(HMS)およびAWS Glue用のフェデレーションコネクタを新たに搭載しました。これらのコネクタは、Unity Catalogと外部メタストア間の翻訳レイヤーとして機能します。このコネクタを利用すると、HMSカタログ(内部および外部)やAWS Glue全体をUnity Catalog内の外部カタログとしてマウントでき、それらがネイティブオブジェクトとして表示されます。

以下の操作が可能になります:

  • 細かいアクセス制御の設定
  • リネージ(系統管理)の表示
  • 監査の実施
  • Databricksエンジンを使用してHMSやAWS Glueが管理するテーブルへのクエリ実行

フェデレーションは、Databricksワークスペース内の内部HMSテーブルへの読み書きをサポートし、外部HMSおよびAWS Glueのテーブルには読み取り専用アクセスを提供します。

これにより、HMSやAWS Glueに存在するすべてのテーブルを(Parquet、Delta形式に加え、Iceberg形式も近日パブリックプレビュー予定)シームレスに読み取ることが可能になります。これらのテーブルに対して簡単にアクセスし、統合ガバナンスを実現できます。

 

HMS Fed
HMS and AWS Glue Federation in Unity Catalog

下のビデオチュートリアルをチェックして、AWS GlueとHMS Federationの動作を探ってみてください。

無料トライアル

Unity Catalogをレイクハウスアーキテクチャの基盤として採用することで、データとAI資産全体を網羅する統一されたオープンガバナンスの力を解き放つことができます。

Databricks 無料トライアル

関連記事

Lakehouse Federationの一般提供を開始

本日、Unity CatalogのLakehouse FederationがAWS、Azure、GCPで一般提供 (GA) されたことをお知らせします。Lakehouse Federationを使用すると、すべてのデータを一か所で発見、クエリ、管理することができます。このGAリリースにより、連携ワークロードに対する安定性、セキュリティ、エンタープライズ対応が強化されます。 このブログ投稿では、Lakehouse FederationのGA機能について説明し、世界をリードする企業でのアジャイルな分析をどのように支えているかを探求し、次に何が来るのかを議論します。 Lakehouse Federation入門 世界中の組織は、規模や業界に関係なく、データとAIを活用して革新を推進しています。しかし、歴史的、組織的、技術的な理由から、データはしばしば複数の運用および分析システムに分散して残っています。この断片化はいくつかの課題を引き起こします: すべてのデータを発見し、アクセスするのが難しい エンジニアリングのボトルネ

Data + AI Summit 2024:Databricks Unity Catalogの最新情報

Translation Review by saki.kitaoka 急速に進化する人工知能とデータやジェネレーティブAIツールの爆発的な増加が特徴の時代において、企業はデータとAIのガバナンスの断片化に直面しており、データとAIの民主化の努力が妨げられています。この時代に成功するためには、企業はデータとAIのガバナンスにおいてオープンで統一されたアプローチを採用する必要があります。これには次のことが含まれます: オープンな接続性: データの出所や形式に関係なく、すべてのデータの信頼できる単一の情報源を作成する。 統一されたガバナンス: すべてのデータ(ファイル、テーブル)およびAI資産(MLモデル、AIツール、ノートブック)が中央システムで発見され、安全に管理され、監視され、追跡されるように包括的な監督を実施する。 オープンなアクセシビリティ: データとAIリソースにどのツール、コンピュートエンジン、プラットフォームからでもアクセスできる柔軟性を提供し、ロックインを回避するためにオープンスタンダードとインターフ

Unity Catalogのオープンソース化を発表します!

Translation Review by saki.kitaoka Unity Catalogのオープンソース化を発表できることを非常に嬉しく思います。 これは、クラウド、データ形式、データプラットフォーム全体でデータとAIのガバナンスを行う業界初のオープンソースカタログです。ここでは、Unity Catalogビジョンの最も重要な柱をご紹介します: オープンソースのAPIと実装: OpenAPI仕様に基づいて構築され、Apache 2.0ライセンスのもとでオープンソースのサーバー実装があります。Apache HiveのメタストアAPIやApache IcebergのRESTカタログAPIとも互換性があります。 マルチフォーマットサポート: 拡張性があり、Delta Lake、UniForm経由のApache Iceberg、Apache Parquet、CSVなど、すべての形式をサポートします。 マルチエンジンサポート: オープンAPIを使用して、Unityにカタログされたデータはほぼすべてのコンピュートエン
製品一覧へ