Unity Catalogに新機能!Hive MetastoreとAWS Glue Federationのパブリックプレビュー開始!
Summary
- HMSとAWS Glue Federationにより、Unity CatalogはDatabricks内外のHive MetastoreやAWS Glueに保存されたテーブルにシームレスにアクセスし、統一的なガバナンスを提供できるようになります。
- この機能により、データ探索の簡素化と包括的なガバナンスが可能になります。
- HMSやAWS Glueに存在するすべてのテーブルをシームレスに読み取ることが可能になり、統合ガバナンスを実現できます。
Generated by AI
Hive Metastore(HMS)とAWS Glue Federationのパブリックプレビュー開始をお知らせします!
この新機能により、Unity CatalogはDatabricks内外に存在するHive MetastoreやAWS Glueに保存されたテーブルにシームレスにアクセスし、統一的なガバナンスを提供できるようになります。これは、Unity Catalogを通じてデータベース、データウェアハウス、カタログといった外部データソースを統一ガバナンスフレームワークの下にまとめるLakehouse Federationビジョンの重要な一歩となります。
形式や場所を問わず、すべてのデータを単一のプラットフォームから簡単に発見、ガバナンス、クエリ可能になり、組織全体のオープンなアクセスとコラボレーションを促進します。また、データインテリジェンスをすべてのデータソースに拡張することが可能になります。
このブログでは、HMSとAWS Glue Federationのメリット、仕組み、導入方法について解説します。
なぜHive MetastoreとAWS Glue Federationなのか?
HMSはビッグデータシステムにおけるデータカタログ化の初期標準として広く採用されてきました。しかし、現代のデータとAIワークロードに求められる行・列レベルの細かいアクセス制御、データの系統管理(リネージ)、モニタリング、監査といった包括的なガバナンスには十分対応できていません。
Unity Catalogはこれらの課題を解決し、データやAI資産を統合管理できる唯一のオープンガバナンスソリューションを提供します。ファイル、テーブル、MLモデル、AIツール、ノートブック、メトリクスなどを統一カタ ログにキュレーションし、細かいアクセス制御や監査、リネージ、クロスプラットフォーム共有を実現します。現在、10,000以上の企業がUnity Catalogを活用してデータ資産をガバナンスしています。
HMSとAWS Glue Federationは、HMSがデータアーキテクチャに深く組み込まれている組織にとって大きなメリットをもたらします。既存のHMSやAWS Glueのデプロイメントを活かしつつ、Unity Catalogの高度な機能を無理なく活用できる移行パスを提供します。これにより、既存のワークフローを維持しながら、データとワークスペースをUnity Catalogに段階的にアップグレードすることが可能です。
主なメリット
-
シームレスな統合
手動によるメタデータ移行なしで、既存のHMSやAWS GlueカタログをUnity Catalogに直接接続。 -
データ探索の簡素化
Unity Catalog内で他のデータやAI資産と並列に、HMSやAWS Glueからメタデータを統一されたインターフェイスで探索可能。 -
包括的なガバナンス
Unity Catalogの細かいアクセス制御、タグ付け、分類、系統管理(リネージ)、監査機能をHMSやAWS Glueに保存されたデータに適用可能。
「私たちの外部Hive Metastoreには、何年分ものデータセットがカタログ化されています。HMS Federationのおかげで、これらすべてのテーブルをUnity Catalogに移行する手間をかけることなく、強力なアクセス制御やGenie Spacesを通じたセルフサービスAIツールなど、Unity Catalogの特有のメリットを即座に享受できるようになりました。」— James Davidheiser, Technical Lead, Data Infrastructure, Asana
仕組み
Unity Catalogは、Hive Metastore(HMS)およびAWS Glue用のフェデレーションコネクタを新たに搭載しました。これらのコネクタは、Unity Catalogと外部メタストア間の翻訳レイヤーとして機能します。このコネクタを利用すると、HMSカタログ(内部および外部)やAWS Glue全体をUnity Catalog内の外部カタログとしてマウントでき、それらがネイティブオブジェクトとして表示されます。
以下の操作が可能になります:
- 細かいアクセス制御の設定
- リネージ(系統管理)の表示
- 監査の実施
- Databricksエンジンを使用してHMSやAWS Glueが管理するテーブルへのクエリ実行
フェデレーションは、Databricksワークスペース内の内部HMSテーブルへの読み書きをサポートし、外部HMSおよびAWS Glueのテーブルには読み取り専用アクセスを提供します。
これにより、HMSやAWS Glueに存在するすべてのテーブルを(Parquet、Delta形式 に加え、Iceberg形式も近日パブリックプレビュー予定)シームレスに読み取ることが可能になります。これらのテーブルに対して簡単にアクセスし、統合ガバナンスを実現できます。
下のビデオチュートリアルをチェックして、AWS GlueとHMS Federationの動作を探ってみてください。
無料トライアル
Unity Catalogをレイクハウスアーキテクチャの基盤として採用することで、データとAI資産全体を網羅する統一されたオープンガバナンスの力を解き放つことができます。