Data and AI Summit 2023におけるUnityカタログの最新情報
翻訳:Junichi Maruyama. - Original Blog Link
データ管理に不可欠な、説明責任、コンプライアンス、品質、透明性といったガバナンスの基本原則は、今やAIにとっても同様に不可欠なものとなっています。DatabricksはUnity Catalogで、クラウドとデータプラットフォームにわたるデータとAIガバナンスのための業界唯一の統合ソリューションをリリースすることで、先駆的なアプローチを取りました。
組織はUnity Catalogを使用することで、あらゆるデータプラットフォームやクラウドでファイル、テーブル、MLモデル、ノートブック、ダッシュボードを安全に発見、アクセス、監視、コラボレーションすることができます。
私たちは、Lakehouse Federation、Governance for AI、AIを活用したガバナンス(Lakehouse Monitoring、Lakehouse Observability)など、Unityカタログの最先端の進歩を発表できることをうれしく思います。
Lakehouse Federation: データがどこにあっても、発見し、管理し、照会する
Unity CatalogのLakehouse Federation は、オープン、パフォーマンス、セキュアなデータメッシュアーキテクチャの構築を可能にします。Lakehouse Federationを利用することで、組織はMySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure SQL Database、Azure Synapse、Google BigQueryなど、さまざまなプラットフォームにわたるすべてのデータについて、Databricks内で一貫したデータ管理、ディスカバリ、ガバナンスのエクスペリエンス を活用できます。さらに、Unity Catalogの高度なセキュリティ機能(行や列レベルのアクセス制御、タグやデータ系統などのディスカバリ機能など)は、これらの外部データソースにも拡張され、一貫したガバナンスの実践を保証します。
AIのためのガバナンス - データとAIカタログをひとつ屋根の下で統合する
また、Unity Catalogのガバナンスモデルを拡張し、AI資産とデータの両方を統合的に管理できるようにします。この統合により、DataOpsとMLOpsのプロセスが簡素化され、必要なすべての機能を一元化することで、組織はAIコンプライアンスに備えることができます。主な機能強化は以下の通り:
Unity CatalogのFeature Storeとモデルレジストリ
Unity CatalogのModel Registryのパブリックプレビューを発表し、Feature Storeのパブリックプレビューを7月後半に予定しています。この機能により、Unity Catalogは、データやフィーチャーからモデルに至るまで、すべてのデータとMLアセットを1つのカタログにまとめ、AIワークフロー全体を通して完全な可視性ときめ細かなアクセス制御を保証する唯一のガバナンスソリューションとなります。この統一されたアプローチは、自動バージョニングとリネージ追跡、一元化されたガバナンス、 シームレスなクロスワークスペースコラボレーションを提供し、MLOpsの簡素化と生産性の向上を実現します。さらに、高度なモニタリング機能により、AIワークフロー全体の可視性、品質、理解、コントロールが向上します。
Unityカタログのボリューム: 表形式以外のデータを管理する
特に機械学習やデータサイエンスのワークロードでは、画像、音声、動画、PDFファイルなど、表形式ではないデータへのアクセスが必要なユースケースが多くあります。
私たちはUnity CatalogのVolumesを発表しました。Volumesは、ファイルのコレクションをカタログ化する新しいタイプのオブジェクトで、非構造化、半構造化、構造化など、形式に関係なく大規模なデータのコレクションを読み取り、処理するスケーラブルなファイルベースのアプリケーションの構築を支援します。これにより、Unityカタログ内の表形式データとともに、非表形式データの管理、統制、系統追跡が可能になります。Volumesのパブリック・プレビューは数週間後に予定されています!
ガバナンスのためのAI Lakehouse・モニタリングとレイクハウス・オブザーバビリティ
Unity Catalogは、AIのための強固なガバナンス機能を提供するだけでなく、ガバナンス・ワークフローを最適化するためにAIの力を活用します。主な強化点は以下の通り:
レイクハウス・モニタリング 組織のデータとAI資産の品質を監視します
データとAIモデルの信頼を確保することは、あらゆる組織の成功にとって最も重要です。この重要な要件に対処するため、データ、MLモデル、フィーチャーを含むデータパイプライン全体を網羅するAI主導のモニタリングサービス、Databricks Lakehouse Monitoringを導入しました。
Databricks Lakehouse Monitoringは、最近買収したOkeraのAIベースのデータ分類テクノロジーを使用して、個人を特定できる情報(PII)の自動分類と識別を含む、データとMLモデルパイプラインの品質問題やエラーに対するプロアクティブなアラートを提供します。さらに、データチームは、自動生成されるダッシュボードを通じて、包括的なデータとMLの品質レポートを関係者と容易に共有することができます。
最後に、データチームは、Unity Catalogのカラムレベルまでのリアルタイムデータリネージを利用することで、モニタリングレポートで特定された問題のデバッグと影響評価を効率的に行うことができます。これにより、モニタリングと診断のワークフローが合理化され、包括的なエンドツーエンドのソリューションが提供されます。
レイクハウスの観測可能性: レイクハウスの全側面のシステムテーブルとダッシュボード
観測可能性は、あらゆるデータおよびAIワークロードの重要な側面です。この要件に対応するため、当社はUnity Catalogにおける監査、リネージ、課金用のSystem Tablesのパブリック・プレビューを発表し、今年後半にはさらにテーブルを追加する予定です。
System Tablesは、一元化された分析ストアとして機能し、包括的なコストと使用状況の分析を提供し、リソースの消費と支出に関する貴重な洞察を提供します。さらに、システム・テーブルによって、ユーザ ーはジョブ、ノートブック、クラスタ、SQL/MLエンドポイントの監査分析を実行し、データのリネージとアクセス許可を追跡できます。あらゆる言語を使用してUnityカタログのシステム・テーブルを簡単にクエリできるため、ユーザーはカスタマイズされたダッシュボードやノートブックを構築し、AIのパワーを活用して運用データを実用的なビジネス・インサイトに変換できます。最後に、ユーザーはこのインテリジェンスをDBSQLアラートでさらに運用化し、エンドツーエンドのインテリジェント・データ・アプリケーション・ライフサイクルにRoI改善を体系的に推進することができます。
レイクハウスにおけるガバナンスのさらなる進化
行および列レベルのデータ・セキュリティ
データのセキュリティを粒度レベルで効果的に強化するために、Unity Catalogは行フィルタリングと列マスキングを提供します。ユーザーは標準SQL関数を活用して行フィルタと列マスクを定義し、個々の行や列のレベルできめ細かなアクセス制御を行うことができる。この機能はプライベート・プレビューであり、パブリック・プレビューは今年7月後半に予定されている。
データ分類の ためのタグ
Unity Catalogは、単なるディスカバリーにとどまらず、データに関する文脈的な洞察を提供することで、ユーザーの作業を飛躍的に促進し、アナリティクスやAIイニシアチブを加速させます。ユーザーはデータ資産を簡単に記述してタグ付けし、理解を深めたり、資産の人気度を把握したり、ドメインエキスパートを特定したり、頻繁に使用されるノートブック/クエリ/ジョインを特定したりできるため、データエンリッチメントが容易になります。
LakehouseIQ: お客様のビジネスを独自に理解するAIエンジン
また、LakehouseIQも発表しました。LakehouseIQは、お客様のビジネス特有のニュアンスや複雑なデータのレイヤーを学習し、適切なタイミングで適切なデータにシームレスに自然言語でアクセスできるナレッジエンジンです。LakehouseIQはUnity Catalogを搭載しており、AIが活用するメタデータとリネージを提供するとともに、すべてのインサイトに対して一貫したガバナンスを確保します。
Databricks Unityカタログを使い始める
Unity CatalogをLakehouseアーキテクチャの礎として採用することで、データとAI資産全体にまたがる柔軟でスケーラブルなガバナンス実装の力を引き出すことができます。まずは、AWS, Azure, GCPで利用可能なUnity Catalogガイドに従ってください。
Watch the Data+AI Summit 2023 keynote from Matei Zaharia, co-founder and Chief Technology Officer at Databricks, to learn more. Register for Data + AI Summit and explore the top data and AI governance sessions.