メインコンテンツへジャンプ

Data and AI Summit 2023におけるUnityカタログの最新情報

Lakehouse Federation, Governance for AI, Lakehouse Monitoring, Lakehouse Observability and More
Share this post

翻訳:Junichi Maruyama.  -  Original Blog Link

データ管理に不可欠な、説明責任、コンプライアンス、品質、透明性といったガバナンスの基本原則は、今やAIにとっても同様に不可欠なものとなっています。DatabricksはUnity Catalogで、クラウドとデータプラットフォームにわたるデータとAIガバナンスのための業界唯一の統合ソリューションをリリースすることで、先駆的なアプローチを取りました。

組織はUnity Catalogを使用することで、あらゆるデータプラットフォームやクラウドでファイル、テーブル、MLモデル、ノートブック、ダッシュボードを安全に発見、アクセス、監視、コラボレーションすることができます。

私たちは、Lakehouse FederationGovernance for AI、AIを活用したガバナンス(Lakehouse Monitoring、Lakehouse Observability)など、Unityカタログの最先端の進歩を発表できることをうれしく思います。

Databricks Unity Catalog
Databricks Unity Catalog

Lakehouse Federation: データがどこにあっても、発見し、管理し、照会する

Unity CatalogのLakehouse Federation は、オープン、パフォーマンス、セキュアなデータメッシュアーキテクチャの構築を可能にします。Lakehouse Federationを利用することで、組織はMySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure SQL Database、Azure Synapse、Google BigQueryなど、さまざまなプラットフォームにわたるすべてのデータについて、Databricks内で一貫したデータ管理、ディスカバリ、ガバナンスのエクスペリエンスを活用できます。さらに、Unity Catalogの高度なセキュリティ機能(行や列レベルのアクセス制御、タグやデータ系統などのディスカバリ機能など)は、これらの外部データソースにも拡張され、一貫したガバナンスの実践を保証します。

Query Federation in Unity Catalog
Lakehouse Federation in Unity Catalog

AIのためのガバナンス - データとAIカタログをひとつ屋根の下で統合する

また、Unity Catalogのガバナンスモデルを拡張し、AI資産とデータの両方を統合的に管理できるようにします。この統合により、DataOpsとMLOpsのプロセスが簡素化され、必要なすべての機能を一元化することで、組織はAIコンプライアンスに備えることができます。主な機能強化は以下の通り:

Unity CatalogのFeature Storeとモデルレジストリ

Unity CatalogのModel Registryのパブリックプレビューを発表し、Feature Storeのパブリックプレビューを7月後半に予定しています。この機能により、Unity Catalogは、データやフィーチャーからモデルに至るまで、すべてのデータとMLアセットを1つのカタログにまとめ、AIワークフロー全体を通して完全な可視性ときめ細かなアクセス制御を保証する唯一のガバナンスソリューションとなります。この統一されたアプローチは、自動バージョニングとリネージ追跡、一元化されたガバナンス、シームレスなクロスワークスペースコラボレーションを提供し、MLOpsの簡素化と生産性の向上を実現します。さらに、高度なモニタリング機能により、AIワークフロー全体の可視性、品質、理解、コントロールが向上します。

Discover and govern ML models along with your data in Unity Catalog
Discover and govern ML models along with your data in Unity Catalog

Unityカタログのボリューム: 表形式以外のデータを管理する

特に機械学習やデータサイエンスのワークロードでは、画像、音声、動画、PDFファイルなど、表形式ではないデータへのアクセスが必要なユースケースが多くあります。

私たちはUnity CatalogのVolumesを発表しました。Volumesは、ファイルのコレクションをカタログ化する新しいタイプのオブジェクトで、非構造化、半構造化、構造化など、形式に関係なく大規模なデータのコレクションを読み取り、処理するスケーラブルなファイルベースのアプリケーションの構築を支援します。これにより、Unityカタログ内の表形式データとともに、非表形式データの管理、統制、系統追跡が可能になります。Volumesのパブリック・プレビューは数週間後に予定されています!

Govern any non-tabular data in Unity Catalog
Govern any non-tabular data in Unity Catalog

ガバナンスのためのAI Lakehouse・モニタリングとレイクハウス・オブザーバビリティ

Unity Catalogは、AIのための強固なガバナンス機能を提供するだけでなく、ガバナンス・ワークフローを最適化するためにAIの力を活用します。主な強化点は以下の通り:

レイクハウス・モニタリング 組織のデータとAI資産の品質を監視します

データとAIモデルの信頼を確保することは、あらゆる組織の成功にとって最も重要です。この重要な要件に対処するため、データ、MLモデル、フィーチャーを含むデータパイプライン全体を網羅するAI主導のモニタリングサービス、Databricks Lakehouse Monitoringを導入しました。

Databricks Lakehouse Monitoringは、最近買収したOkeraのAIベースのデータ分類テクノロジーを使用して、個人を特定できる情報(PII)の自動分類と識別を含む、データとMLモデルパイプラインの品質問題やエラーに対するプロアクティブなアラートを提供します。さらに、データチームは、自動生成されるダッシュボードを通じて、包括的なデータとMLの品質レポートを関係者と容易に共有することができます。

Proactive alerts in Unity Catalog
Proactive alerts in Unity Catalog

最後に、データチームは、Unity Catalogのカラムレベルまでのリアルタイムデータリネージを利用することで、モニタリングレポートで特定された問題のデバッグと影響評価を効率的に行うことができます。これにより、モニタリングと診断のワークフローが合理化され、包括的なエンドツーエンドのソリューションが提供されます。

Root cause and impact assessment using lineage
Root cause and impact assessment using lineage

レイクハウスの観測可能性:  レイクハウスの全側面のシステムテーブルとダッシュボード

観測可能性は、あらゆるデータおよびAIワークロードの重要な側面です。この要件に対応するため、当社はUnity Catalogにおける監査、リネージ、課金用のSystem Tablesのパブリック・プレビューを発表し、今年後半にはさらにテーブルを追加する予定です。

System Tablesは、一元化された分析ストアとして機能し、包括的なコストと使用状況の分析を提供し、リソースの消費と支出に関する貴重な洞察を提供します。さらに、システム・テーブルによって、ユーザーはジョブ、ノートブック、クラスタ、SQL/MLエンドポイントの監査分析を実行し、データのリネージとアクセス許可を追跡できます。あらゆる言語を使用してUnityカタログのシステム・テーブルを簡単にクエリできるため、ユーザーはカスタマイズされたダッシュボードやノートブックを構築し、AIのパワーを活用して運用データを実用的なビジネス・インサイトに変換できます。最後に、ユーザーはこのインテリジェンスをDBSQLアラートでさらに運用化し、エンドツーエンドのインテリジェント・データ・アプリケーション・ライフサイクルにRoI改善を体系的に推進することができます。

Lakehouse Observability using System Tables in Unity Catalog
Lakehouse Observability using System Tables in Unity Catalog

レイクハウスにおけるガバナンスのさらなる進化

行および列レベルのデータ・セキュリティ

データのセキュリティを粒度レベルで効果的に強化するために、Unity Catalogは行フィルタリングと列マスキングを提供します。ユーザーは標準SQL関数を活用して行フィルタと列マスクを定義し、個々の行や列のレベルできめ細かなアクセス制御を行うことができる。この機能はプライベート・プレビューであり、パブリック・プレビューは今年7月後半に予定されている。

データ分類のためのタグ

Unity Catalogは、単なるディスカバリーにとどまらず、データに関する文脈的な洞察を提供することで、ユーザーの作業を飛躍的に促進し、アナリティクスやAIイニシアチブを加速させます。ユーザーはデータ資産を簡単に記述してタグ付けし、理解を深めたり、資産の人気度を把握したり、ドメインエキスパートを特定したり、頻繁に使用されるノートブック/クエリ/ジョインを特定したりできるため、データエンリッチメントが容易になります。

Data Insights with Unity Catalog
Data Insights with Unity Catalog

LakehouseIQ: お客様のビジネスを独自に理解するAIエンジン

また、LakehouseIQも発表しました。LakehouseIQは、お客様のビジネス特有のニュアンスや複雑なデータのレイヤーを学習し、適切なタイミングで適切なデータにシームレスに自然言語でアクセスできるナレッジエンジンです。LakehouseIQはUnity Catalogを搭載しており、AIが活用するメタデータとリネージを提供するとともに、すべてのインサイトに対して一貫したガバナンスを確保します。

Databricks Unityカタログを使い始める

Unity CatalogをLakehouseアーキテクチャの礎として採用することで、データとAI資産全体にまたがる柔軟でスケーラブルなガバナンス実装の力を引き出すことができます。まずは、AWS, AzureGCPで利用可能なUnity Catalogガイドに従ってください。

Watch the Data+AI Summit 2023 keynote from Matei Zaharia, co-founder and Chief Technology Officer at Databricks, to learn more. Register for Data + AI Summit and explore the top data and AI governance sessions

 

Databricks 無料トライアル

関連記事

UnityカタログにLakehouseフェデレーション機能を導入

翻訳: Masahiko Kitamura オリジナル記事: Introducing Lakehouse Federation Capabilities in Unity Catalog データチームは、データの断片化、データの統合にかかる時間とコスト、多数のシステムにわたるデータガバナンスの管理の難しさなどが主な原因で、適切なデータに素早くアクセスするために多くの課題に直面しています。 そのため、本日 Data+AI Summit で、組織が統一されたガバナンスを備えた、拡張性とパフォーマンスの高いデータメッシュアーキテクチャを構築できるUnity CatalogのLakehouse Federation機能を発表できることを嬉しく思います。 Unity Catalog は、データとAIのための統合ガバナンスソリューションを提供します。Unity CatalogのLakehouseフェデレーション機能により、MySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure...

LakehouseIQのご紹介: あなたのビジネスを独自に理解するAIエンジン

翻訳:Junichi Maruyama. - Original Blog Link 本日、LakehouseIQを発表いたします。LakehouseIQは、お客様のビジネスとデータのユニークなニュアンスを学習し、様々なユースケースで自然言語によるアクセスを可能にするナレッジエンジンです。LakehouseIQは、組織内のどの従業員でも自然言語でデータを検索、理解、照会することができます。LakehouseIQは、お客様のデータ、使用パターン、組織図に関する情報をもとに、専門用語や独自のデータ環境を理解し、素朴なLarge Language Models (LLM)よりもはるかに優れた回答を提供します。 ラージ・ランゲージ・モデルはもちろん、データに言語インターフェースをもたらすと約束されており、どのデータ会社もAIアシスタントを追加しているが、現実には、これらのソリューションの多くは企業データでは不十分である。どの企業も独自のデータセット、専門用語、ビジネス上の質問に答えるために必要な内部知識を持っており、質問に

レイクハウスのデータ共有とコラボレーションの新機能のご紹介

翻訳:Saki Kitaoka. - Original Blog Link Databricksは、データ、アナリティクス、AIを横断するデータ共有とコラボレーション( data sharing and collaboration )のための初のオープンソースアプローチを提供します。お客様は、ベンダーに依存することなく、プラットフォーム、クラウド、地域を超えて、ライブデータセット、AIモデル、アプリケーション、ノートブックを共有することができます。プロバイダーは、革新的なデータ製品を提供する機会を拡大することで、イノベーションを加速し、新たな収益源を生み出すことができます。この柔軟性は、 Delta Sharing を Databricks Unity Catalog と統合して、共有データセットへのアクセスを管理、追跡、監査することで、強固なセキュリティとガバナンスとともに実現されます。Lakehouse Collaboration Platformを進化させる新機能を発表できることを嬉しく思います。Datab

Databricks Unity CatalogをオープンなApache Hive Metastore APIで拡張可能になりました

Original: Extending Databricks Unity Catalog with an Open Apache Hive Metastore API 翻訳: saki.kitaoka 本日、Databricks Unity CatalogのHive Metastore(HMS)インターフェイスのプレビューを発表しました。Apache Hiveは、業界で最も広くサポートされているカタログインターフェースであり、事実上すべての主要なコンピューティングプラットフォームで使用可能です。この機能により、企業はデータ管理、発見、ガバナンスをUnity Catalogに一元化し、Amazon Elastic MapReduce(EMR)、オープンソースのApache Spark、Amazon...
プラットフォームブログ一覧へ