メインコンテンツへジャンプ

レイクハウス・モニタリング: データとAIの品質監視のための統合ソリューション

ジャクリーン・リー
Alkis Polyzotis
Kasey Uhlenhuth
Share this post

はじめに

Databricks Lakehouse Monitoring(レイクハウス・モニタリング)を使用すると、データからフィーチャー、MLモデルまで、すべてのデータパイプラインを追加のツールや複雑な操作なしに監視できます。Unity Catalogに組み込まれているため、ガバナンスと並行して品質を追跡し、データとAI資産のパフォーマンスについて深い洞察を得ることができます。Lakehouse Monitoringは完全にサーバーレスなので、インフラストラクチャやコンピュート構成のチューニングを心配する必要はありません。

Lakehouseのモニタリングに対する統一されたアプローチにより、Databricks Data Intelligence Platformで直接、品質の追跡、エラーの診断、ソリューションの検索が簡単に行えます。Lakehouse Monitoringを最大限に活用する方法を本記事ではご紹介します。

サンプル・ダッシュボード

なぜレイクハウス・モニタリングなのか?

データパイプラインは順調に動いているように見えますが、時間の経過とともにデータの品質が静かに低下していることに気づきます。データエンジニアの間ではよくある問題で、データが使えないと誰かが文句を言うまでは、すべてがうまくいっているように見えます。

MLモデルをトレーニングしている人にとって、本番モデルのパフォーマンスを追跡し、異なるバージョンを比較することは継続的な課題です。その結果、チームは本番でモデルが古くなり、ロールバックするタスクに直面します。

機能的なパイプラインがデータ品質の低下を覆い隠しているような錯覚は、データとAIチームが納期と品質のSLAを満たすことを困難にしています。Lakehouse Monitoringは、ダウンストリームプロセスに影響が及ぶ前に、品質の問題をプロアクティブに発見するのに役立ちます。潜在的な問題を未然に防ぐことで、パイプラインを円滑に実行し、機械学習モデルを長期にわたって効果的に維持することができます。デバッグや変更のロールバックに何週間も費やす必要はもうありません!

仕組み

レイクハウス・フローチャート

Lakehouse Monitoringを使用すると、ワンクリックですべてのテーブルの統計プロパティと品質を監視できます。UnityカタログのあらゆるDeltaテーブルのデータ品質を可視化するダッシュボードを自動的に生成します。当社の製品は、豊富なメトリクスセットをすぐに計算します。例えば、推論テーブルを監視している場合、R二乗、精度などのモデルパフォーマンスメトリクスを提供します。また、データ・エンジニアリング・テーブルを監視する場合は、平均、最小/最大などの分布メトリクスを提供します。ビルトインメトリクスの他に、カスタム(ビジネス固有)のメトリクスを設定することもできます。Lakehouse Monitoringは、ご指定のスケジュールに従ってメトリックスをリフレッシュし、ダッシュボードを最新の状態に保ちます。すべてのメトリクスはデルタテーブルに保存され、アドホック分析、カスタムビジュアライゼーション、アラートを可能にします。

モニタリングの設定

Databricks UI (AWS | Azure) または API (AWS | Azure) を使用して、所有する任意のテーブルに対してモニタリングを設定できます。データパイプラインやモデルに必要なモニタリングプロファイルのタイプを選択します: 

  1. スナップショットプロファイル: スナップショットプロファイル:テーブル全体を長期的に監視したい場合、または現在のデータを以前のバージョンや既知のベースラインと比較したい場合は、スナップショットプロファイルが最適です。テーブル内のすべてのデータに対してメトリクスを計算し、モニターが更新されるたびにメトリクスを更新します。
  2. 時系列プロファイル: テーブルにイベントのタイムスタンプが含まれ、時間のウィンドウ(1 時間ごと、1 日ごと、1 週間ごとなど)のデータ分布を比較したい場合は、Time Series Profile が最適です。Change Data Feed (AWS | Azure) を有効にして、モニターが更新されるたびにインクリメンタルな処理ができるようにすることをお勧めします。注意: このプロファイルを設定するには、タイムスタンプ列が必要です。
  3. 推論ログプロファイル: 時間の経過とともにモデルのパフォーマンスを比較したり、モデルの入力と予測が時間とともにどのように変化するかを追跡したい場合は、推論プロファイルが最適です。MLの分類または回帰モデルからの入力と出力を含む推論テーブル(AWS | Azure)が必要です。また、オプションとして、ドリフトを計算するためのグランドトゥルースラベルや、公平性やバイアスメトリクスを得るための人口統計学的情報などのメタデータを含めることができます。

モニタリング・サービスを実行する頻度をお選びいただけます。多くのお客様は、データの鮮度と関連性を確保するために、毎日または毎時のスケジュールを選択します。データパイプラインの実行終了時にモニタリングを自動的に実行したい場合は、APIを呼び出してワークフロー内でモニタリングを直接リフレッシュすることもできます。

モニタリングをさらにカスタマイズするために、テーブル全体に加えてテーブルのサブセットを監視するスライス式を設定することができます。性別など特定の列をスライスして、公平性と偏りのメトリクスを生成できます。また、プライマリテーブルのカラムに基づいたカスタムメトリクス、指標を定義することもできます。詳細は カスタムメトリクス、指標の使用方法(AWS | Azure)を参照してください

データ品質を可視化する

リフレッシュの一環として、お客様のテーブルとモデルをスキャンし、経時的な品質を追跡するメトリックスを生成します。弊社では、2種類のメトリクスを計算し、デルタ・テーブルに保存します: 

  • プロファイル・メトリクス: プロファイルメトリクス: データの要約統計を提供します。例えば、テーブル内のヌルやゼロの数、またはモデルの精度メトリクスを追跡できます。詳細については、プロファイルメトリクステーブルスキーマ (AWS | Azure)を参照してください。
  • ドリフト・メトリクス: ベースライン・テーブルと比較できる統計的なドリフト・メトリクスを提供します。詳細は、ドリフト・メトリクス・テーブル・スキーマ(AWS | Azure)を参照してください。

これらのメトリクスをすべて可視化するために、Lakehouse Monitoringは完全にカスタマイズ可能なすぐに使えるダッシュボードを提供します。また、Databricks SQLアラート(AWS | Azure) を作成して、しきい値違反、データ配布の変更、ベースラインテーブルからのドリフトについて通知を受けることもできます。

 

アラートの設定

データテーブルやモデルを監視している場合でも、計算されたメトリクスにアラートを設定することで、潜在的なエラーを通知し、下流のリスクを防ぐことができます。

NULLやゼロのパーセンテージが特定のしきい値を超えたり、時間の経過とともに変化した場合にアラートを受け取ることができます。モデルを監視している場合は、有害性やドリフトなどのモデル・パフォーマンス測定基準が特定の品質しきい値に該当した場合にアラートを受け取ることができます。

アラートから得られる洞察により、モデルの再トレーニングが必要かどうか、またはソースデータに潜在的な問題があるかどうかを特定することができます。問題に対処した後、手動でリフレッシュAPIを呼び出して、更新されたパイプラインの最新のメトリクスを取得できます。Lakehouse Monitoringは、データとモデルの全体的な健全性と信頼性を維持するための積極的なアクションを支援します。

レイクハウス・モニタリング・アラート

LLMの品質質を監視する

Lakehouse Monitoringは、RAG(Retrieval Augmented Generation)アプリケーションの品質管理ソリューションを提供します。アプリケーションの出力をスキャンし、有害なコンテンツやその他の安全でないコンテンツを検出します。古くなったデータパイプラインや予期しないモデルの動作などに関連するエラーを迅速に診断できます。Lakehouse Monitoringはモニタリングパイプラインを完全に管理するため、開発者はアプリケーションに集中することができます。

クオリティ・ダッシュボード

次に何が来るのか?(ロードマップ)

Lakehouse Monitoringの今後にご期待ください!

  • データ分類/ PII検出 - プライベートプレビューのお申し込みはこちらから
  • データ品質ルールの自動適用とパイプラインのオーケストレーションへの期待 
  • テーブル全体の品質と健全性を要約するモニターの全体的なビュー
  • テーブル全体の品質と健全性を要約するモニターの全体的なビュー

レイクハウス・モニタリングの詳細と今すぐ始めるには、製品ドキュメント(AWS | Azure)をご覧ください。さらに 、 高品質なRAGアプリケーションの作成に関する 最近の 発表をキャッチアップ し、GenAI Webセミナーにご参加ください