メインコンテンツへジャンプ

Data + AI Summit 2024:Databricks Unity Catalogの最新情報

Unity Catalogのオープンソース化、ガバナンス付きビジネスメトリクス、属性ベースのアクセス制御、レイクハウスフェデレーションGAなど、最新情報が盛りだくさん!
Share this post

Translation Review by saki.kitaoka

急速に進化する人工知能とデータやジェネレーティブAIツールの爆発的な増加が特徴の時代において、企業はデータとAIのガバナンスの断片化に直面しており、データとAIの民主化の努力が妨げられています。この時代に成功するためには、企業はデータとAIのガバナンスにおいてオープンで統一されたアプローチを採用する必要があります。これには次のことが含まれます:

  • オープンな接続性:データの出所や形式に関係なく、すべてのデータの信頼できる単一の情報源を作成する。
  • 統一されたガバナンス:すべてのデータ(ファイル、テーブル)およびAI資産(MLモデル、AIツール、ノートブック)が中央システムで発見され、安全に管理され、監視され、追跡されるように包括的な監督を実施する。
  • オープンなアクセシビリティ:データとAIリソースにどのツール、コンピュートエンジン、プラットフォームからでもアクセスできる柔軟性を提供し、ロックインを回避するためにオープンスタンダードとインターフェースを使用する。

この統一されたオープンなガバナンスのアプローチは、堅牢なデータインテリジェンスプラットフォームを構築するための基本となります。

3年前、Databricksはこのアプローチを先駆けてUnity Catalogをリリースしました。これは、クラウド、データ形式、データプラットフォーム全体でデータとAIの統一ガバナンスを提供する業界唯一のソリューションです。BIおよびジェネレーティブAIのユースケースに対して、安全かつコンプライアンスに準拠してスケールするように設計されています。現在、10,000社以上の企業がUnity Catalogを利用してデータとAIの資産を管理しています。

この能力をさらに強化するために、オープンなアクセシビリティ、オープンな接続性、統一されたガバナンスにおける最先端の技術を発表します。

オープンなアクセシビリティ - どのコンピュートエンジン、ツール、プラットフォームからでもデータとAIリソースにアクセスできるように


Unity Catalogのオープンソース化:データとAIのための業界唯一のユニバーサルカタログ


Unity Catalogをオープンソース化することを発表できることを嬉しく思います。

このイニシアチブは、オープンなエコシステムに対するDatabricksのコミットメントを強調し、顧客が単一のベンダーに縛られることなく、必要な柔軟性とコントロールを提供します。これは、Amazon Web Services、Microsoft Azure、Google Cloud、Nvidia、Salesforce、DuckDB、LangChain、dbt Labs、Fivetran、Confluent、Unstructured、Onehouse、Immuta、Informaticaなどとの共同の取り組みです。

Unity Catalog
Unity Catalog Open Ecosystem

本日、オープンソース版Unity Catalogのバージョン0.1をリリースします。いくつかのAPIや機能はまだ進化中ですが、このリリースではUnity Catalogのいくつかの重要な機能を紹介します:

  • テーブル、ボリューム(非構造化データ)、AIツール/機能を一元管理できます。
  • テーブルは、Delta Lake、UniForm経由のIceberg、Parquet、CSV、JSONなど、複数のフォーマットに対応しています。
  • Unity Catalogは、IcebergエンジンエコシステムからのアクセスのためにIceberg REST Catalog APIを実装しており、Tabularの専門知識を活用しています。
  • APIは、テーブルやボリュームの基盤となるクラウドストレージへのクライアントアクセスを制限するためのクレデンシャル発行をサポートし、カタログサーバーでガバナンスを集中管理します。

すでにDatabricksのお客様であれば、特別な対応は不要です。既存のUnity Catalogのデプロイメントは同じオープンAPIを実装しており、既存のアクセスコントロールを使用して、Day 1からホストされたUnity Catalogのすべてのテーブル(管理されたテーブルおよび外部テーブルを含む)、ボリューム、機能に外部クライアントがアクセスできるようにします。この変更により、より多くのクライアントが既存のカタログと連携できるようになります。

Unity REST APIsにより、パートナーやオープンソースコミュニティが強力な統合を構築できるようになり、顧客は外部アクセス料なしでさまざまなアプリケーションからテーブル、非構造化データ、AIツール/機能を操作できます。

unitycatalog.ioのUnity Catalog OSSコミュニティに参加し、GitHub リポジトリを訪れてUnity Catalogでの開発を始めてください。

「AT&Tは、私たちのデータをプラットフォームと相互運用可能にすることに取り組んでいます。Unity Catalogのオープンソース化の発表により、Databricksがレイクハウスのガバナンスとメタデータ管理をオープンスタンダードで実現する一歩を踏み出したことに励まされています。相互運用可能なツールをデータおよびAI資産に一貫したガバナンスのもとで利用できる柔軟性は、AT&Tのデータプラットフォーム戦略の中心です。」
— Matt Dugan 氏 (AT&T データプラットフォーム担当副社長)
「AWSはDatabricksによるUnity Catalogのオープンソース化を歓迎します。AWSは、顧客に選択と相互運用性を提供するオープンソースソリューションについて、業界と協力して取り組むことを約束します。」
—AWS テクノロジーパートナーシップ担当マネージングディレクター、クリス・グルス氏

統一されたガバナンス - データとAI全体にわたって

レイクハウスモニタリング:インテリジェンスを用いたデータ品質のプロファイリング、診断、強化

AWSおよびAzureで利用可能なDatabricksレイクハウスモニタリングの一般提供(GA)を発表できることを嬉しく思います。データとAIの統一されたモニタリングアプローチにより、Databricks Data Intelligence Platform内で直接プロファイリング、診断、品質の強制が容易に行えます。

Lakehouse Monitoringは、追加のツールや複雑さを必要とせずに、データチームが自動プロファイリングと時間経過に伴う傾向や異常を視覚化するダッシュボードを提供することで、プロセスを簡素化します。データ量、空値の割合、数値分布の変化、カテゴリー分布の変化などの主要な指標を追跡することで、Lakehouse Monitoringは洞察を提供し、問題のある列を早期に特定します。推論テーブルに対しては、モデルドリフトや精度、F1スコア、精度、リコールなどのパフォーマンス指標を監視し、再トレーニングが必要な時期を判断できます。品質に対する積極的なアプローチにより、ビジネス運営に影響が出る前に問題を発見できます。

レイクハウスモニタリング
Lakehouse Monitoring Dashboard
「Lakehouse Monitoringは画期的な存在です。プラットフォーム内で直接データ品質の問題を解決するのに役立ちます。まるでシステムの心臓のような存在です。私たちのデータサイエンティストは、煩雑な手続きを経ることなくデータ品質を理解できるようになり、非常に喜んでいます。」
—エコラボ、データサイエンス担当ディレクター、ヤニス カツァノス氏

属性ベースのアクセス制御 (ABAC) - データとAIのスケーラブルなアクセス管理

Unity Catalogにおける属性ベースのアクセス制御(ABAC)のプライベートプレビューを発表できることを嬉しく思います。ABACは、レイクハウス全体でガバナンスポリシーの適用を簡素化する、高い効果を発揮するガバナンスソリューションを提供します。シンプルなルールとタグを使用することで、ABACはDatabricks固有のデータソースや外部ソースから連携されたデータソースのいずれに対しても一貫したガバナンスを確保します。

ABACの柔軟性は、ポリシーの定義と管理の容易さにあり、ポリシービルダーUI、SQLクエリ、APIなどの直感的なオプションを提供します。さらに、Databricks ABACはサードパーティのガバナンスツールとシームレスに統合され、相互運用性を向上させ、既存のガバナンスインフラへの投資を活用することができます。

ABACを使用することで、ワークスペースやテーブルなどのデータ資産、AI資産などのリソースの特定の属性に合わせたアクセス制御を確立できます。これらの属性には、ユーザー定義のタグ、ワークスペースの詳細、場所、アイデンティティ、時間など、さまざまなパラメーターが含まれます。機密データを許可された人員に限定する場合でも、プロジェクト要件の変化に応じてアクセスを動的に調整する場合でも、ABACはユーザーに対してきめ細かな精度でセキュリティ対策を適用する力を与えます。

ABACの
Attribute-bases access contols

Unity Catalog Metricsの発表 - データとAIのガバナンス付きビジネス指標

Unity Catalog Metricsの導入により、データチームがレイクハウスで定義された認定メトリクスを活用して、より優れたビジネス判断を行えるようになります。これらのメトリクスは、Databricks(例:SQL、ノートブック、AI/BIダッシュボード、AI/BI Genieスペース)および第三者のBIツール(例:Tableau、Power BI)を通じてアクセス可能です。

データは複数のシステムや部門に分散していることが多く、チーム間で主要なビジネスメトリクスの定義が異なることがあります。この不一致は混乱を招き、報告の不整合を引き起こす可能性があります。メトリクスの定義を標準化することで、Unity Catalog Metricsはデータチームが同じセマンティクスと基礎データを使用できるようにし、すべてのチームが一貫した定義を使用することを保証します。これにより、データの信頼性と信頼が向上します。

Unity Catalog Metricsは、既存のレイクハウスリソース(テーブルやファイルなど)の上に構築されており、データソースとデータ消費者の間の仲介役として機能します。この新しいUnity Catalog資産は、他のリソースと同様に完全にガバナンスされ、発見可能であり、完全なリンネージ(系譜)可視性を提供します。オープンなアプローチにより、ユーザーはAI/BIダッシュボード、AI/BI Genie、Databricks SQL、ノートブックなどのデータサイエンスおよび機械学習ツール、Power BI、Tableau、Lookerなどの第三者BIツールを含むすべてのDatabricksインターフェースからこれらのメトリクスにアクセスできます。これらのメトリクスは完全にSQLアドレス可能であり、dbt Labs、Cube、AtScaleなどの第三者メトリクスツールとの統合をサポートし、シームレスな統合と包括的なデータ分析機能を提供します。

Unity Catalogメトリクス
Unity Catalog Metrics

Unity Catalogで、この機能に関する最新情報を随時お知らせしていきますので、お見逃しなく!

オープンな接続性 - あらゆるデータ、あらゆる形式、あらゆるソース


レイクハウスフェデレーション:データがどこに存在していても、発見、クエリ、ガバナンスを実現

Unity Catalogにおけるレイクハウスフェデレーションがまもなく一般提供(GA)されることを発表できることを嬉しく思います。レイクハウスフェデレーションは、MySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure SQL Database、Azure Synapse、Google BigQueryなど、複数のプラットフォームにわたる統一されたデータ管理、発見、ガバナンスの体験をDatabricks内で提供します。Unity Catalogは、行および列レベルのアクセス制御などの高度なセキュリティ機能や、タグやデータ系譜などの発見ツールをこれらの外部データソースに拡張し、一貫したガバナンス実践を確保します。

今後の一般提供リリースには、MySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure SQL Database、Azure Synapse、Google BigQuery(プレビュー)用のコネクタサポートが含まれます。また、Snowflake、SQL Server、Postgres、Redshift、Synapseのプッシュダウンカバレッジとパフォーマンスが強化され、Snowflake接続のOAuthサポートや、Azureエコシステム接続のAzure ADサポートも提供されます。さらに、ケースセンシティブなネームスペースサポートとSalesforce Data Cloud Connector(プレビュー)が導入されます。

また、レイクハウスフェデレーションをApache HiveおよびAWS Glueにも拡張し、プレビューがまもなく公開される予定です。

レイクハウスフェデレーション
Lakehouse Federation
「レイクハウスフェデレーションにより、ターゲットアーキテクチャへの移行中に他のデータソースを迅速にUnity Catalogに取り込むことができます。」
—ブライス・バートマン、シェル社 チーフデジタルテクノロジーアドバイザー

Unity Catalogを使いはじめましょう

Unity Catalogをレイクハウスアーキテクチャの基盤として採用することで、データとAIの全資産にわたる柔軟でスケーラブルなガバナンスを実現できます。始めるには、AWS Azure GCP向けのUnity Catalogガイドをご覧ください。

Databricksの共同創設者兼最高技術責任者であるMatei ZahariaによるData+AI Summit 2024の基調講演を視聴し、最新の発表について詳しく学びましょう。Data + AI Summitに登録して、データとAIガバナンスに関するトップ セッションを探索してください。

データとAIのための効果的なガバナンス戦略の構築方法についての無料の電子書籍をダウンロードしましょう。

Databricks 無料トライアル

関連記事

Unity Catalogのオープンソース化を発表します!

Translation Review by saki.kitaoka Unity Catalogのオープンソース化を発表できることを非常に嬉しく思います。 これは、クラウド、データ形式、データプラットフォーム全体でデータとAIのガバナンスを行う業界初のオープンソースカタログです。ここでは、Unity Catalogビジョンの最も重要な柱をご紹介します: オープンソースのAPIと実装: OpenAPI仕様に基づいて構築され、Apache 2.0ライセンスのもとでオープンソースのサーバー実装があります。Apache HiveのメタストアAPIやApache IcebergのRESTカタログAPIとも互換性があります。 マルチフォーマットサポート: 拡張性があり、Delta Lake、UniForm経由のApache Iceberg、Apache Parquet、CSVなど、すべての形式をサポートします。 マルチエンジンサポート: オープンAPIを使用して、Unityにカタログされたデータはほぼすべてのコンピュートエン

Data + AI Summit 2024:データ共有とコラボレーションの最新情報

Translation Review by saki.kitaoka Databricksでは、データとAIの民主化をミッションとしています。オープンなアプローチによる共有とコラボレーションは、そのリーチとインパクトを最大化するために重要です。当社のデータインテリジェンスプラットフォーム内では Delta Sharing オープンプロトコルが顧客のデータとAI資産の共有を簡単かつ安全にし、イノベーションを加速させます。サードパーティデータとのコラボレーションには、 Databricks Marketplace がすべてのデータ、分析、AIのニーズに対応するオープンマーケットプレイスを提供します。データパートナーのエコシステムが拡大する中で、さまざまなデータとAI資産を共有し、データ消費者がイノベーションを実現できるようにします。 Databricks Clean Rooms は、ビジネスがどのクラウド上でも安全な環境で簡単にコラボレーションできるプライバシー保護されたコラボレーションを提供します。先週、Delta

Iceberg との互換性を実現する Delta Lake Universal Format (UniForm) が GA に

現在一般提供されている Delta Lake UniForm により、顧客は Iceberg エコシステム内のツールに接続する際に、Delta Lake の業界をリードする価格性能のメリットを享受できるようになります。
プラットフォームブログ一覧へ