メインコンテンツへジャンプ

Lakehouse Monitoring 一般提供開始:インテリジェントなデータ品質のプロファイリング、診断、実施

ジャクリーン・リー
Kasey Uhlenhuth
ポール・ラッパス
ダニー・チャオ
Share this post

Data and AI Summitで、我々はDatabricks Lakehouse Monitoringの一般提供開始を発表しました。データとAIの監視に対する統一的なアプローチにより、Databricks Data Intelligence Platform内で直接プロファイルを作成し、診断し、品質を強制することが容易になります。これは直接Unity Catalog上に構築されており、Lakehouse Monitoring (AWS | Azure)は追加のツールや複雑さを必要としません。ダウンストリームプロセスが影響を受ける前に品質問題を発見することで、組織はデータへのアクセスを民主化し、データへの信頼を回復することができます。

なぜデータとモデルの品質が重要なのか

今日のデータ駆動型の世界では、高品質なデータとモデルは信頼を築き、自律性を創出し、ビジネス成功を推進するために不可欠です。しかし、品質問題はしばしば気づかれずに放置されます。

このシナリオはお馴染みですか?パイプラインは順調に動作しているように見えますが、データアナリストがダウンストリームデータが破損しているとエスカレートします。また、機械学習の場合、モデルが再訓練を必要とすることに気づかないまま、パフォーマンスの問題が本番環境で明らかになるまで気づかないことがあります。今、あなたのチームはデバッグと変更のロールバックに数週間を費やすことになりました!この運用上のオーバーヘッドは、コアビジネスニーズの提供を遅らせるだけでなく、重要な決定が不完全なデータに基づいて行われた可能性があるという懸念を引き起こします。これらの問題を防ぐために、組織は品質監視ソリューションが必要です。

Lakehouse Monitoringを使用すると、データとAIの品質を簡単に開始し、スケールアップすることができます。Lakehouse MonitoringはUnity Catalogに基づいて構築されているため、チームは異なるツールの統合の手間を省きながら、品質とガバナンスを追跡できます。あなたの組織がDatabricksデータインテリジェンスプラットフォーム内の品質を直接活用して達成できること: 

データ品質の価値

Lakehouse MonitoringがあなたのデータとAIの信頼性を向上させ、組織内での信頼、自主性、ビジネス価値を構築する方法を学びましょう。

自動プロファイリングでインサイトを解き放つ

Lakehouse Monitoringは、任意のDelta Table(AWS | Azure)に対してUnity Catalogで自動プロファイリングを提供します。これにより、プロファイルメトリクス用とドリフトメトリクス用の2つのメトリクステーブル(AWS | Azure)がアカウント内に作成されます。推論テーブル(AWS | Azure)、つまりモデルの入力と出力を表現するものについては、モデルのパフォーマンスとドリフトメトリクスも取得します。テーブル中心のソリューションとして、Lakehouse Monitoringは、データとAIの全体的な品質を監視することをシンプルかつスケーラブルにします。

計算されたメトリクスを活用して、Lakehouse Monitoringは時間経過でのトレンドと異常をプロットするダッシュボードを自動生成します。カウント、パーセントNULL、数値分布の変化、カテゴリ分布の変化などの主要メトリクスを視覚化することで、Lakehouse Monitoringは洞察を提供し、問題のある列を特定します。MLモデルを監視している場合、Accuracy、F1、Precision、再現率などのメトリクスを追跡して、モデルの再訓練が必要なタイミングを特定できます。Lakehouse Monitoringを使用すると、品質問題が手間なく発見され、データとモデルが信頼性と効果性を保つことが確保されます。

「Lakehouse Monitoringはゲームチェンジャーでした。プラットフォーム内で直接データ品質の問題を解決するのに役立ちます...それはシステムの心臓部のようなものです。私たちのデータサイエンティストたちは、やっと面倒な手続きを経ずにデータ品質を理解できると喜んでいます」 – Yannis Katsanos 氏、Ecolabのデータサイエンス、オペレーション、イノベーション部門ディレクター
ダッシュボード

Lakehouse Monitoringは、ビジネスのニーズに合わせて完全にカスタマイズ可能です。以下の方法で、さらにあなたのユースケースに合わせてカスタマイズすることができます:

  • カスタムメトリクス (AWS | Azure): 組み込みのメトリクスに加えて、カスタムメトリクスとしてSQL表現を書くことができ、モニターのリフレッシュ時に計算します。すべてのメトリクスはDeltaテーブルに保存されるため、より深い分析のために他のテーブルとメトリクスを簡単にクエリおよび結合できます。 
  • スライシング表現 (AWS | Azure): テーブル全体に加えて、テーブルのサブセットを監視するためのスライシング表現を設定できます。特定のカテゴリーによってグループ化されたメトリクスを表示するために、任意の列でスライスできます。例えば、製品ライン別の収益、民族や性別によってスライスされた公正性とバイアスメトリクスなどです。
  • ダッシュボードの編集AWS | Azure): Lakeview Dashboards(AWS | Azure)で作成された自動生成ダッシュボードであるため、Lakeviewの全ての機能を活用できます。これには、カスタムビジュアライゼーションやワークスペース、チーム、ステークホルダー間のコラボレーションが含まれます。

次に、Lakehouse Monitoringは、反応的なプロセスから積極的なアラートに移行することで、データとモデルの品質をさらに確保します。新しいExpectations機能を使用すると、品質問題が発生した際に通知を受け取ることができます。

期待値で品質問題を積極的に検出する 

Databricksは品質をデータ実行に近づけ、パイプライン内で直接問題を検出、防止、解決することを可能にします。

現在、マテリアライズド ビューとストリーミング テーブルにデータ品質の期待値(AWS | Azure) を設定することで、問題がダウンストリームの消費者に影響を与える前に事前に対処することができます。Databricksで期待値を統合し、Unity Catalog内の任意のテーブルに対して品質ルールを設定することができます。これにはDelta Tables(AWS | Azure)、Streaming Tables(AWS | Azure)、Materialized Views(AWS | Azure)が含まれます。これにより、重複、高いパーセンテージのNULL値、データの分布変化などの一般的な問題を防ぎ、モデルの再訓練が必要なときに指示します。

 Deltaテーブルへの期待値の拡張を行うために、次の機能を数ヶ月以内に追加します:

  • *プライベートプレビュー中* 集約期待値: 主キー、外部キー、および percent_null または count などの集約制約に対する期待値を定義します。 
  • 通知: 品質違反が発生した際にアラートを受け取るか、ジョブを失敗させることで、品質問題を積極的に対処します。
  • 可観測性: Unity Catalogに緑/赤のヘルスインジケーターを統合し、データが品質期待値を満たしているかどうかを示します。これにより、誰でもスキーマページを訪れて簡単にデータ品質を評価できます。注意が必要なテーブルをすぐに特定でき、関係者がデータが安全に使用できるかどうかを判断できます。
  • インテリジェントな予測: あなたの期待値に対して推奨される閾値を受け取り、騒々しいアラートを最小限に抑え、不確実性を減らします。
スクリーンショット

これからの展開を見逃さないように、私たちのプレビューに参加してください:リンク

Lakehouse Monitoringの開始

Lakehouse Monitoringを始めるには、Unity Catalogの任意のテーブルのQualityタブに移動し、「Get Started」をクリックするだけです。3つのプロファイルタイプ(AWS | Azure)から選択できます: 

  1. 時系列:品質メトリクスはタイムウィンドウごとに集約されるため、日、時間、週などでグループ化されたメトリクスを取得できます。
  2. スナップショット:品質メトリクスは全テーブル上で計算されます。これは、メトリクスがリフレッシュされるたびに、全テーブル上で再計算されることを意味します。 
  3. 推論:データ品質メトリクスに加えて、モデルのパフォーマンスとドリフトメトリクスが計算されます。これらのメトリクスを時間経過で比較することも、必要に応じてベースラインやグラウンドトゥルースラベルと比較することもできます。

💡ベストプラクティスのヒント: 大規模に監視するためには、テーブルにChange Data Feed(CDF)(AWS | Azure)を有効にすることをお勧めします。これにより、新たに追加されたデータのみを処理し、毎回全テーブルを再処理することなく、効率的な実行が可能になり、多数のテーブルを監視する際のコストを節約できます。ただし、この機能は、スナップショットがモニターのリフレッシュごとにテーブル全体のスキャンを必要とするため、時系列または推論プロファイルでのみ利用可能です。

Lakehouse Monitoringを自分で試すか、詳細を学ぶためには、以下の製品リンクをご覧ください:

データ品質を監視し、強制し、民主化することで、私たちはチームがデータで信頼を築き、自律性を創出することを可能にしています。同じ信頼性をあなたの組織にもたらし、Databricks Lakehouse Monitoring (AWS | Azure) で今すぐ始めましょう。

Databricks 無料トライアル

関連記事

レイクハウス・モニタリング: データとAIの品質監視のための統合ソリューション

はじめに Databricks Lakehouse Monitoring (レイクハウス・モニタリング)を使用すると、データからフィーチャー、MLモデルまで、すべてのデータパイプラインを追加のツールや複雑な操作なしに監視できます。 Unity Catalog に組み込まれているため、ガバナンスと並行して品質を追跡し、データとAI資産のパフォーマンスについて深い洞察を得ることができます。Lakehouse Monitoringは完全にサーバーレスなので、インフラストラクチャやコンピュート構成のチューニングを心配する必要はありません。 Lakehouseのモニタリングに対する統一されたアプローチにより、 Databricks Data Intelligence Platform で直接、品質の追跡、エラーの診断、ソリューションの検索が簡単に行えます。Lakehouse Monitoringを最大限に活用する方法を本記事ではご紹介します。 なぜレイクハウス・モニタリングなのか? データパイプラインは順調に動いているよう

Databricksレイクハウスモニタリングで高品質な予測を確保する

予測モデルは、多くの企業が将来のトレンドを予測するために重要ですが、その精度は入力データの品質に大きく依存します。 データの品質が低いと、予測が不正確になり、最適な意思決定ができなくなる可能性があります。 ここで、 Databricksレイクハウスモニタリングが登場します。これは、予測モデルに流入するデータの品質とモデルのパフォーマンス自体の両方を監視するための統合ソリューションを提供します。 モニタリングは、予測モデルにとって特に重要です。 予測は時系列データを扱うため、データの時間的コンポーネントとシーケンシャルな性質により、複雑さが増します。 入力データの統計的プロパティが時間の経過とともに変化するデータ ドリフトなどの問題は、迅速に検出および対処しないと、予測精度を大幅に低下させる可能性があります。 さらに、予測モデルのパフォーマンスは、予測値と実際の値を比較する平均絶対パーセント誤差 (MAPE) などのメトリクスによって測定されることがよくあります。 ただし、グラウンド トゥルース値はすぐには利用でき
セキュリティと信頼一覧へ