Lakehouse Monitoring 一般提供開始：インテリジェントなデータ品質のプロファイリング、診断、実施

Published: August 1, 2024

ジャクリーン・リー、Kasey Uhlenhuth、ポール・ラッパス、ダニー・チャオによる投稿

Data and AI Summitで、我々はDatabricks Lakehouse Monitoringの一般提供開始を発表しました。データとAIの監視に対する統一的なアプローチにより、Databricks Data Intelligence Platform内で直接プロファイルを作成し、診断し、品質を強制することが容易になります。これは直接Unity Catalog上に構築されており、Lakehouse Monitoring (AWS | Azure)は追加のツールや複雑さを必要としません。ダウンストリームプロセスが影響を受ける前に品質問題を発見することで、組織はデータへのアクセスを民主化し、データへの信頼を回復することができます。

なぜデータとモデルの品質が重要なのか

今日のデータ駆動型の世界では、高品質なデータとモデルは信頼を築き、自律性を創出し、ビジネス成功を推進するために不可欠です。しかし、品質問題はしばしば気づかれずに放置されます。

このシナリオはお馴染みですか？パイプラインは順調に動作しているように見えますが、データアナリストがダウンストリームデータが破損しているとエスカレートします。また、機械学習の場合、モデルが再訓練を必要とすることに気づかないまま、パフォーマンスの問題が本番環境で明らかになるまで気づかないことがあります。今、あなたのチームはデバッグと変更のロールバックに数週間を費やすことになりました！この運用上のオーバーヘッドは、コアビジネスニーズの提供を遅らせるだけでなく、重要な決定が不完全なデータに基づいて行われた可能性があるという懸念を引き起こします。これらの問題を防ぐために、組織は品質監視ソリューションが必要です。

Lakehouse Monitoringを使用すると、データとAIの品質を簡単に開始し、スケールアップすることができます。Lakehouse MonitoringはUnity Catalogに基づいて構築されているため、チームは異なるツールの統合の手間を省きながら、品質とガバナンスを追跡できます。あなたの組織がDatabricksデータインテリジェンスプラットフォーム内の品質を直接活用して達成できること：

Lakehouse MonitoringがあなたのデータとAIの信頼性を向上させ、組織内での信頼、自主性、ビジネス価値を構築する方法を学びましょう。

自動プロファイリングでインサイトを解き放つ

Lakehouse Monitoringは、任意のDelta Table（AWS | Azure）に対してUnity Catalogで自動プロファイリングを提供します。これにより、プロファイルメトリクス用とドリフトメトリクス用の2つのメトリクステーブル（AWS | Azure）がアカウント内に作成されます。推論テーブル（AWS | Azure）、つまりモデルの入力と出力を表現するものについては、モデルのパフォーマンスとドリフトメトリクスも取得します。テーブル中心のソリューションとして、Lakehouse Monitoringは、データとAIの全体的な品質を監視することをシンプルかつスケーラブルにします。

計算されたメトリクスを活用して、Lakehouse Monitoringは時間経過でのトレンドと異常をプロットするダッシュボードを自動生成します。カウント、パーセントNULL、数値分布の変化、カテゴリ分布の変化などの主要メトリクスを視覚化することで、Lakehouse Monitoringは洞察を提供し、問題のある列を特定します。MLモデルを監視している場合、Accuracy、F1、Precision、再現率などのメトリクスを追跡して、モデルの再訓練が必要なタイミングを特定できます。Lakehouse Monitoringを使用すると、品質問題が手間なく発見され、データとモデルが信頼性と効果性を保つことが確保されます。

Lakehouse Monitoringは、ビジネスのニーズに合わせて完全にカスタマイズ可能です。以下の方法で、さらにあなたのユースケースに合わせてカスタマイズすることができます：

カスタムメトリクス (AWS | Azure): 組み込みのメトリクスに加えて、カスタムメトリクスとしてSQL表現を書くことができ、モニターのリフレッシュ時に計算します。すべてのメトリクスはDeltaテーブルに保存されるため、より深い分析のために他のテーブルとメトリクスを簡単にクエリおよび結合できます。
スライシング表現 (AWS | Azure): テーブル全体に加えて、テーブルのサブセットを監視するためのスライシング表現を設定できます。特定のカテゴリーによってグループ化されたメトリクスを表示するために、任意の列でスライスできます。例えば、製品ライン別の収益、民族や性別によってスライスされた公正性とバイアスメトリクスなどです。
ダッシュボードの編集（AWS | Azure）: Lakeview Dashboards（AWS | Azure）で作成された自動生成ダッシュボードであるため、Lakeviewの全ての機能を活用できます。これには、カスタムビジュアライゼーションやワークスペース、チーム、ステークホルダー間のコラボレーションが含まれます。

次に、Lakehouse Monitoringは、反応的なプロセスから積極的なアラートに移行することで、データとモデルの品質をさらに確保します。新しいExpectations機能を使用すると、品質問題が発生した際に通知を受け取ることができます。

期待値で品質問題を積極的に検出する

Databricksは品質をデータ実行に近づけ、パイプライン内で直接問題を検出、防止、解決することを可能にします。

現在、マテリアライズドビューとストリーミングテーブルにデータ品質の期待値（AWS | Azure) を設定することで、問題がダウンストリームの消費者に影響を与える前に事前に対処することができます。Databricksで期待値を統合し、Unity Catalog内の任意のテーブルに対して品質ルールを設定することができます。これにはDelta Tables（AWS | Azure）、Streaming Tables（AWS | Azure）、Materialized Views（AWS | Azure）が含まれます。これにより、重複、高いパーセンテージのNULL値、データの分布変化などの一般的な問題を防ぎ、モデルの再訓練が必要なときに指示します。

Deltaテーブルへの期待値の拡張を行うために、次の機能を数ヶ月以内に追加します：

*プライベートプレビュー中* 集約期待値: 主キー、外部キー、および percent_null または count などの集約制約に対する期待値を定義します。
通知: 品質違反が発生した際にアラートを受け取るか、ジョブを失敗させることで、品質問題を積極的に対処します。
可観測性: Unity Catalogに緑/赤のヘルスインジケーターを統合し、データが品質期待値を満たしているかどうかを示します。これにより、誰でもスキーマページを訪れて簡単にデータ品質を評価できます。注意が必要なテーブルをすぐに特定でき、関係者がデータが安全に使用できるかどうかを判断できます。
インテリジェントな予測: あなたの期待値に対して推奨される閾値を受け取り、騒々しいアラートを最小限に抑え、不確実性を減らします。

これからの展開を見逃さないように、私たちのプレビューに参加してください：リンク

Lakehouse Monitoringの開始

Lakehouse Monitoringを始めるには、Unity Catalogの任意のテーブルのQualityタブに移動し、「Get Started」をクリックするだけです。3つのプロファイルタイプ（AWS | Azure)から選択できます：

時系列：品質メトリクスはタイムウィンドウごとに集約されるため、日、時間、週などでグループ化されたメトリクスを取得できます。
スナップショット：品質メトリクスは全テーブル上で計算されます。これは、メトリクスがリフレッシュされるたびに、全テーブル上で再計算されることを意味します。
推論：データ品質メトリクスに加えて、モデルのパフォーマンスとドリフトメトリクスが計算されます。これらのメトリクスを時間経過で比較することも、必要に応じてベースラインやグラウンドトゥルースラベルと比較することもできます。

💡ベストプラクティスのヒント: 大規模に監視するためには、テーブルにChange Data Feed（CDF）（AWS | Azure）を有効にすることをお勧めします。これにより、新たに追加されたデータのみを処理し、毎回全テーブルを再処理することなく、効率的な実行が可能になり、多数のテーブルを監視する際のコストを節約できます。ただし、この機能は、スナップショットがモニターのリフレッシュごとにテーブル全体のスキャンを必要とするため、時系列または推論プロファイルでのみ利用可能です。

Lakehouse Monitoringを自分で試すか、詳細を学ぶためには、以下の製品リンクをご覧ください：

こちらをご覧ください DAIS 2024 ディープダイブとデモ
アカウントにLakehouse Monitoring DBdemoをロードして製品チュートリアルをご覧ください
私たちの製品ドキュメンテーションを読む (AWS | Azure)
私たちの期待値プレビューにサインアップするこちら

データ品質を監視し、強制し、民主化することで、私たちはチームがデータで信頼を築き、自律性を創出することを可能にしています。同じ信頼性をあなたの組織にもたらし、Databricks Lakehouse Monitoring (AWS | Azure) で今すぐ始めましょう。

次は何ですか？

Announcing the Databricks AI Security Framework 2.0

February 12, 2025/1分未満

Databricks AIセキュリティフレームワーク2.0の発表

Adopting Databricks and Unity Catalog Governance to Support ITGC Compliance

May 20, 2025/1分未満

なぜデータとモデルの品質が重要なのか

自動プロファイリングでインサイトを解き放つ

期待値で品質問題を積極的に検出する

Lakehouse Monitoringの開始

Databricksの投稿を見逃さないようにしましょう

Sign up

次は何ですか？

Databricks AIセキュリティフレームワーク2.0の発表

DatabricksとUnity Catalogガバナンスで実現するITGCコンプライアンス