Databricks Unity CatalogをオープンなApache Hive Metastore APIで拡張可能になりました

統一されたガバナンスによるオープンで相互運用可能なエンタープライズデータカタログの構築

Todd Greenstein、Junlin Zeng、Vihang Karajgaonkar、Zeashan Pappa、Abhishek Pratap Singh、サチン・タクール、Matei Zaharia による投稿

June 11, 2023 in 製品

Share this post

Original: Extending Databricks Unity Catalog with an Open Apache Hive Metastore API

本日、Databricks Unity CatalogのHive Metastore（HMS）インターフェイスのプレビューを発表しました。Apache Hiveは、業界で最も広くサポートされているカタログインターフェースであり、事実上すべての主要なコンピューティングプラットフォームで使用可能です。この機能により、企業はデータ管理、発見、ガバナンスをUnity Catalogに一元化し、Amazon Elastic MapReduce（EMR）、オープンソースのApache Spark、Amazon Athena、Presto、Trinoなど、さまざまなコンピュータプラットフォームから接続することができます。また、これらのプラットフォーム間で一貫したデータガバナンスを確保することができます。

このプレビューに参加するには、Databricksの担当者にお問い合わせください。

Hive Metastore interface for Unity Catalog

急速に進化する今日のデータ管理環境では、多くの組織が複数のコンピューティング・プラットフォームを運用し、それら全体で一貫してデータ発見とガバナンスを実施するという課題に直面しています。そのため、データチームは複数のデータカタログやガバナンスツールをやりくりしなければならないことが多く、運用上のオーバーヘッドが大きくなり、データの発見、アクセス管理、監査が困難になることがあります。

Databricks Unity Catalogは、データの発見、権限の管理、アクセスの監査、データの系統と品質の追跡、組織間でのデータの共有といったシンプルな機能を備えた、データ、アナリティクス、AI向けの統合ガバナンス・ソリューションです。HMSインターフェイスにより、業界標準のApache Hive APIをサポートするあらゆるソフトウェアをUnityに接続できるようになり、コンピューティングプラットフォーム間のガバナンスが大幅に簡素化されました。

このブログでは、この機能の利点と、データ管理の実践をどのように強化できるかを探ります。

Unity CatalogにHive Metastoreのインターフェイスを構築した理由

オープン性

多様なデータエコシステムでは、シームレスなデータ統合とコラボレーションにおいて、オープン性が重要な役割を果たします。Apache Hiveは、業界で最も広くサポートされているカタログAPIです。Unity CatalogのオープンHMSインターフェースは、当社のオープンレイクハウスプラットフォーム戦略に合致しており、企業データへのアクセスやベンダーロックインを回避するための統一的かつ標準的なアプローチを提供します。このオープンインターフェースでUnity Catalogを使用することで、組織はデータ管理アーキテクチャを簡素化し、現在および将来のツールの両方をサポートできるようにすることができます。

一貫性のあるデータガバナンス

複数のプラットフォームにまたがるデータを管理することは、一貫したガバナンスを維持する上で大きな課題となっています。Unity CatalogのHMSインターフェースは、Unity Catalogが提供するエンタープライズグレードのガバナンスを多様なコンピュートプラットフォームに拡張することで、この課題に効果的に取り組みます。この統合により、一貫したデータコンプライアンスを確保し、セキュリティ対策を強化し、堅牢なアクセス制御を実施し、集中的な監査を容易にすることができます。

レガシーワークロードをモダナイズする簡単な手段

異なるコンピューティングプラットフォームで稼働する長年のレガシーワークロードをお持ちのお客様は、HMSインターフェース統合により、レガシーワークロードとDatabricksワークロードの両方を包含するメタデータとアクセスコントロールをUnity Catalogに集中化することができます。この統合により、Amazon EMRなどのプラットフォームで稼働しているワークロードを、移行プロセスを通じて一貫性を確保しながら、簡単に移行できるようになります。

コスト最適化

UnityカタログのHMSインターフェースは、組織にコスト最適化の大きな利点をもたらします。従来、組織は複数のカタログを管理するために多大な時間とリソースを費やす必要があり、追加コストが発生するだけでなく、複雑さや潜在的な不整合も生じていました。また、複数のカタログ間でデータやポリシーを同期させることは、壊れやすく、エラーが発生しやすいものです。この統合により、別々のデータカタログを管理、維持、同期する必要がなくなります。

まとめ

Unity CatalogのHMSインターフェースは、オープンな相互運用性とエンタープライズグレードのガバナンスという、両者の長所を融合させたものです。Unity Catalogを多様なコンピュート・プラットフォームと接続することで、企業はデータへのアクセス性の向上、ガバナンスの改善、スケーラビリティ、コストの最適化、相互運用性、将来性の確保を実現し、複数のデータプラットフォームを管理するための高い運用コストを排除できます。これにより、企業はデータ資産を最大限に活用することに集中することができます。

このエキサイティングなプレビューに参加するには、Databricksの担当者にお問い合わせください！

また、データおよびAIガバナンスに関するさらなるエキサイティングな最新情報をお見逃しなく！Data and AI Summit.のセッションにぜひご登録ください！

Databricks 無料トライアル

使ってみる

Unity Catalogによる分散型データガバナンスと孤立した環境の実現

March 9, 2023 Max Nienu、Zeashan Pappa、ポール・ルーム、サチン・タクールによる投稿 in ソリューション

Original : Distributed Data Governance and Isolated Environments with Unity Catalog 翻訳： junichi.maruyama データ、アナリティクス、AIに業務を依存する組織では、効果的なデータガバナンスが不可欠です。多くの組織で、集中型データガバナンスの価値提案に対する認識が高まってきています。しかし、最高の意図を持っていても、適切な組織プロセスとリソースがなければ、集中型ガバナンスの導入は困難な場合があります。多くの組織では、最高データ責任者（CDO）の役割がまだ確立されておらず、誰が組織全体のデータガバナンス方針を定義し、実行するのかについて疑問が残ります。その結果、組織全体のデータガバナンスポリシーを定義し実行する責任が一元化されていないことが多く、組織内のビジネスライン、サブユニット、その他の部門間でポリシーが異なったり、管理団体が異なったりすることになります。簡単のため、このパターンを分散型ガバナンスと呼ぶことにしま

Serving Up a Primer for Unity Catalog Onboarding

November 18, 2022 Anindita Mahapatra、Mohan Mathews による投稿 in プラットフォームブログ

Introduction This blog is part of our Admin Essentials series, where we'll focus on topics important to those managing and maintaining Databricks environments...

ようこそOkera： AIを中心としたアプローチでガバナンスを実現する

May 3, 2023 Reynold Xin（レイノルド・シン）、アリ・ゴディシ、Matei Zaharia、Patrick Wendell（パトリック・ウェンデル）、Jonathan Keller、サチン・タクール、エリカ・エルリによる投稿 in Databricks ブログ

Original: Welcome Okera: Adopting an AI-centric approach to governance 翻訳: junichi.maruyama Databricksは10年にわたり、世界中の組織のためにデータとAIの民主化に力を注いできました。そして、昨年11月のChatGPTのデビュー、そして最近の Dolly 2.0 の導入以来、すべてのお客様が、AIと大規模言語モデル（LLM）の力をビジネスでどのように活用できるかを私たちに尋ねています。また、その直後には、この新しい世界でデータのセキュリティとプライバシーをどのように守ることができるのか、という質問も寄せられています。そこで当社は、世界初のAI中心のデータガバナンスプラットフォームであるOkeraを買収する正式契約を締結したことを発表します。Okeraは、データとAIのスペクトルにわたって、データプライバシーとガバナンスの課題を解決します。データの可視性と透明性を簡素化し、LLMの時代に不可欠なデータの理解や、その

製品一覧へ